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ENVIRONNEMENTALES. IL A CONSEILLÉ 

DE NOMBREUX PROGRAMMES SCIENTIFIQUES 
NATIONAUX. IL ENTRETIENT DES DÉBATS 
ANIMÉS ET FAIT DU KAYAK AVEC SA FEMME 
LEAH ET SES DEUX ENFANTS MAINTENANT 
ADULTES KESTON ET AMELIA. 


« LA CIVILISATION AVANCE EN AUGMENTANT 
LE NOMBRE D'OPÉRATIONS IMPORTANTES QUE 
NOUS POUVONS RÉALISER SANS Y PENSER. » 
ALFRED NORTH WHITEHEAD 


LARRY GONICK EST L'AUTEUR 

ET LE COAUTEUR DE GUIDES ILLUSTRÉS 

ET DE BANDES DESSINÉES AYANT REÇU 

LE PRIX НАКУЕУ. IL A ÉCRIT ET DESSINÉ 
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LA BANDE DESSINÉE KOKOPELLI & COMPANY 
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NOTE DU TRADUCTEUR : DANS CE LIVRE, NOUS AVONS CONSERVÉ LES DONNÉES 

DU MANUSCRIT ORIGINAL BIEN QUE LES UNITÉS SOIENT AMÉRICAINES. EN EFFET, 

LES STATISTIQUES TRAVAILLENT SUR LES CHIFFRES ET PEU IMPORTE L'UNITÉ CHOISIE. 

IL NE NOUS SEMBLAIT DONC PAS NÉCESSAIRE DE CONVERTIR TOUS CES JEUX DE DONNEES, 
CHOISIS PAR LES AUTEURS POUR LEUR INTERET STATISTIQUE ET ILLUSTRES PAR DES DESSINS 
ORIGINAUX. NOUS AVONS TOUTEFOIS DONNE LE RATIO POUR CONVERTIR CES CHIFFRES 

EN UNITÉS FRANÇAISES, LES CONCLUSIONS ÉTANT AUSSI AGRÉMENTÉES 

DE LEUR CONVERSION. 


FUYONS! IL A UN 
TAS DE PROBLEMES 


Chapitre | 
Qu’est-ce que 
la statistique? 


ON SE DEBROUILLE DANS LA VIE EN FAISANT DES CHOIX FONDES 
SUR UNE INFORMATION INCOMPLETE... 


EST-CE QUE JE DEVRAIS PRENDRE 
DE LA SOUPE? TOUT LE RESTE 
EST TELLEMENT CHER, 

ET JE NE SAIS PAS QUI ΡΑΥΕ... 
EST-CE QUE LES STATISTICIENS 
SONT RADINS ? JE МЕМ Al JAMAIS 


EST-CE QUE JE DEVRAIS PRENDRE 
DE LA SOUPE ? J'EN Al PRIS 27 FOIS 
SUR 36 ET ELLE ETAIT PLUTOT BONNE... 
MAIS N'EST-CE PAS LE МО! 

LE JOUR DE REPOS DU CHEF HABITUEL 7 


FRÉQUENTÉ AUPARAVANT... ET QUE SE PASSERAIT-IL 51 TOUTES 
FAR CONTRE, J'AI CONNU LES MOLÉCULES D'AIR DE LA PIÈCE 
UN COMPTABLE VRAIMENT VENAIENT À SE COLLER AU PLAFOND ? 


TRÈS GÉNÉREUX... 


LA PLUPART D'ENTRE NOUS VIVENT 
SANS PROBLEME AVEC CE NIVEAU 
D'INCERTITUDE. 


MAPPORTER D'ABORD 
име CALCULATRICE ? 


СЕ QUI КЕМО LES STATISTIQUES SI UNIQUES, C'EST LA POSSIBILITÉ 

DE QUANTIFIER L'INCERTITUDE, DE FACON À LA RENDRE PLUS PRECISE. 
LES STATISTICIENS PEUVENT ALORS FAIRE AVEC ASSURANCE 

DES PROPOSITIONS CATÉGORIQUES SUR LEUR NIVEAU D'INCERTITUDE ! 


TRÈS BON CHOIX! JE SUIS SÛR 
À 45 % QUE LA SOUPE DE CE SOIR 
A UNE PROBABILITÉ ENTRE 73 ET 77 % 
D'ÊTRE VRAIMENT DÉLICIEUSE ! 


СЕГА МЕ SERT PAS UNIQUEMENT 
A COMMANDER UNE SOUPE! 

LA STATISTIQUE CONCERNE 
AUSSI DES QUESTIONS 

DE VIE OU DE MORT... 


PAR EXEMPLE, EN 1486, LA NAVETTE SPATIALE CHALLENGER A EXPLOSE, 
TUANT SEPT ASTRONAUTES. LA DECISION DE LANCER LA NAVETTE ALORS 

QU'IL FAISAIT - 1 °C A ETE PRISE SANS QU'AUCUNE ANALYSE SIMPLE 

AIT ETE FAITE SUR LES PERFORMANCES DE LA NAVETTE A BASSE TEMPERATURE. 


LE VACCIN DE SALK CONTRE LA POLIOMYELITE FOURNIT UN EXEMPLE 
PLUS POSITIF. EN 1454, DES ΕΘΘΑΙΘ CLINIQUES DU VACCIN FURENT TESTES 
SUR PLUS DE 400 000 ENFANTS, AVEC UN CONTROLE STRICT POUR ELIMINER 
DES RESULTATS BIAISES. LES ANALYSES STATISTIQUES DES RESULTATS 
ONT ÉTÉ CONCLUANTES. ELLES ONT PERMIS D'ÉTABLIR L'EFFICACITE 

DU VACCIN ET, AUJOURD'HUI, LA POLIOMYELITE EST PRESQUE ÉRADIQUÉE. 


POUR АССОМРИК LEURS EXPLOITS DE DETECTIVE DU MONDE REEL, 
LES STATISTICIENS UTILISENT TROIS DISCIPLINES LIEES : 


L’analyse des données 
LA COLLECTE, LA PRÉSENTATION 
ET LE RÉSUMÉ DES DONNÉES. 


Les probabilités 
LES LOIS DU HASARD, QUE CE SOIT 
DANS Ой EN DEHORS D'UN CASINO. 


L’inférence 
statistique 

LA SCIENCE QUI CONSISTE À ÉLABORER 
DES CONCLUSIONS STATISTIQUES À PARTIR 


DE DONNÉES SPÉCIFIQUES EN UTILISANT 
LES CONNAISSANCES SUR LES PROBABILITÉS. 


DANS CET OUVRAGE, NOUS ALLONS ABORDER CES TROIS DISCIPLINES EN LES APPLIQUANT 
À DE NOMBREUX TYPES DE SITUATIONS OÙ LES STATISTIQUES JOUENT UN RÔLE CRUCIAL 
DANS LE MONDE MODERNE. 


— 


COMME : QUELLES 
SONT LES CHANCES 
D'ATTRAPER UN TAXI 
PAR CE TEMPS ? 


DANS LE CHAPITRE 3, NOUS ETUDIERONS 
LES LOIS DE PROBABILITÉS LÀ OÜ ELLES 
SONT APPARUES, LES MAISONS DE JEUX. 


DANS LE CHAPITRE 2, 

NOUS EXAMINERONS UN ENSEMBLE 
SIMPLE DE DONNEES : LES POIDS 

D'UN GROUPE D'ÉTUDIANTS DE LICENCE. 


AU хи SIÈCLE + 3 %! 


=> ATE 
z EE v 
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] Irar: — = a ' 
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ANNE. 


LES CHAPITRES 4 ЕТ 5 MONTRERONT LE CHAPITRE 6 INTRODUIRA L'UNE 
COMMENT DÉCRIRE LE MONDE GRÁCE DES PREMIERES PROCÉDURES DU BON 
AUX MODËLES DE PROBABILITÉS, STATISTICIEN : CONSTRUIRE UN ÉCHANTILLON 


ET AU CONCEPT DE VARIABLE ALÉATOIRE. А РАКПК D'UNE GRANDE POPULATION. 


57. 
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WAOUH! 
UN SYMBOLE! 


DANS LE CHAPITRE 7 
ET LES SUIVANTS, NOUS DECRIRONS EN GROS, PARTOUT! 
COMMENT FAIRE DES INFÉRENCES 


STATISTIQUES DANS DES SITUATIONS 
RÉELLES AUSSI COURANTES 

QUE LES PRÉVISIONS ÉLECTORALES, 
LE CONTRÔLE DE QUALITÉ 
INDUSTRIELLE, LES TESTS MÉDICAUX, 
LE SUIVI ENVIRONNEMENTAL, 

LES DISCRIMINATIONS ET LE DROIT. 


ЕМАМ, LORSQUE NOUS PARLONS 
DE STATISTIQUES IL EST DIFFICILE 
D'ÉVITER DE MENTIONNER 

LA MÉFIANCE TRES RÉPANDUE 

À L'ÉGARD DES STATISTIQUES 
AUJOURD'HUI. ON A TOUS ENTENDU 
DIRE QUE LES STATISTIQUES 


SONT LA < FORME LA PLUS ÉLABORÉE 
DU MENSONGE >, ET IL EST PRESQUE 
IMPOSSIBLE DE TROUVER DE BONNES 
ANALYSES STATISTIQUES DANS 

LA VIE DE TOUS LES JOURS. 

ALORS QUE FAIRE ? 


3 DOCTEURS SUR 4 RECOMMANDENT 
DE NE PAS CROIRE UNE PROPOSITION 
QUI COMMENCE PAR «3 DOCTEURS SUR 4»... 


NOTRE HUMBLE OPINION EST QU'EN APPRENDRE UN PEU PLUS SUR LE SUJET 
N'EST SUREMENT PAS UNE MAUVAISE IDÉE... ET C'EST POUR CELA QUE NOUS AVONS 


ECRIT CE LIVRE! 


DANS CE QUI SUIT, NOUS ESSAIERONS DE PRESENTER LES ELEMENTS STATISTIQUES 
DE LA FACON LA PLUS VISUELLE ET INTUITIVE POSSIBLE. TOUT CE DONT VOUS AVEZ 
BESOIN EST D'UN SOUPCON DE PATIENCE, D'UN PEU DE RÉFLEXION 

ET D'UNE CERTAINE TOLERANCE À L'ALGÈBRE OU, 9I CE N'EST PAS LE CAS, 


CE SERAIT PEUT-ÉTRE UN BON PRÉALABLE A CE COURS! 


NOTIONS DE 
STATISTIQUES 
እ 


Chapitre 2 
Statistiques descriptives 


EUH... BIEN... 
C'EST... CE SONT... 

Ним! VOYONS, 
VOYONS... 


LES DONNEES CONSTITUENT 


LA MATIERE BRUTE DES STATISTICIENS. 


NOUS UTILISONS DES NOMBRES 
POUR TRANSCRIRE LA REALITE. 

TOUS LES PROBLEMES STATISTIQUES 
IMPLIQUENT UNE COLLECTE, 

UNE DESCRIPTION ET UNE ANALYSE 
DES DONNEES OU UNE REFLEXION 
SUR CETTE COLLECTE, SUR CETTE 
DESCRIPTION ET SUR L'ANALYSE 

DES DONNEES. 


CE CHAPITRE SE CONCENTRE SUR LA PARTIE DESCRIPTIVE DES DONNEES. COMMENT 
REPRESENTER LES DONNEES DE FACON PRATIQUE ET UTILE? COMMENT SOULIGNER 
DES TENDANCES A PARTIR D'UNE ACCUMULATION DE DONNEES BRUTES ? COMMENT 
SYNTHETISER ET RESUMER LA FORME BASIQUE DE CES DONNEES ? 


АНА 
"esi Ly 


EH BIEN, POUR DECRIRE LES DONNÉES, NOUS AVONS BESOIN AVANT TOUT DE DISPOSER 
DE DONNÉES... ALORS, COMMENCONS LEUR СОЦ ЕСТЕ! 


HÉHO! 
LES ÉTUDIANTS! 


VOICI DES DONNÉES RÉELLEMENT 
COLLECTÉES LORS D'UNE EXPÉRIENCE 
EN CLASSE. ELLES CONCERNENT 

LE POIDS EN LIVRES DE q2 ÉTUDIANTS 
DE L'UNIVERSITÉ DE PENN STATE : 


POIDS DES 57 ETUDIANTS 


140 145 160 140 155 165 150 140 145 138 160 155 153 145 170 175 175 170 180 
135 170 157 130 185 140 155 170 155 215 150 145 155 155 150 155 150 180 160 
135 160 130 155 150 148 155 150 140 180 140 145 150 164 140 142 136 123 155 


POIDS DES 35 ÉTUDIANTES 


140 120 130 138 121 125 116 145 150 112 125 130 120 130 131 120 118 125 135 
125 118 122 115 102 115 150 110 116 108 45 125 133 110 150 108 


REVENONS-EN AUX CHOSES SÉRIEUSES ЕТ TRACONS UN GRAPHIQUE DE POINTS : 
POUR CHAQUE ÉTUDIANT ON ASSOCIE UN POINT CORRESPONDANT À SON POIDS 

EN LIVRES. ET ON EMPILE LES POINTS LORSQUE PLUSIEURS ÉTUDIANTS ONT DONNÉ 
LA MÊME RÉPONSE. 


100 150 200 


VOUS POUVEZ NOTER ICI UN PROBLÈME : 

LES AMAS DE POINTS SUR 150 ET 155 LIVRES. 

LES ÉTUDIANTS ONT EU TENDANCE À COMMUNIQUER 
LEUR POIDS EN ARRONDISSANT À 5 LIVRES 
PRÈS. DANS LA RÉALITÉ, CE TYPE D'ARRONDI 

PEUT NUIRE À L'ANALYSE DE TENDANCE 

SUR LES DONNEES... MAIS POUR LE MOMENT, 

NOUS ALLONS TRAVAILLER AVEC CELLES-CI. 


ON PEUT RESUMER LES DONNEES EN UTILISANT ИМ TABLEAU DES EFFECTIFS. 
ON REGROUPE ALORS LES DONNÉES РАК TRANCHES (NOMMEES < CLASSES») 

ET ON COMPTE LE NOMBRE DE POIDS D'ÉTUDIANTS DANS CHAQUE INTERVALLE. 
L'EFFECTIF CORRESPOND AU NOMBRE D'ÉTUDIANTS POUR CHAQUE CLASSE. 

LA FRÉQUENCE EST ALORS LA PROPORTION DES POIDS DANS CHAQUE INTERVALLE. 
IL S'AGIT DES EFFECTIFS DIVISÉS PAR LE NOMBRE TOTAL D'ÉTUDIANTS. 


CLASSE CENTRE DE CLASSE EFFECTIF FRÉQUENCE 


87,5-102,4 0,022 
102,5-117,4 0,048 
П7,5-132,4 0,206 
182,5-147,4 0,185 
147,5-162,4 0,243 
162,5-177,4 0,087 
177,5-142,4 0,087 
142,5-207,4 0,011 

207,5-222,4 0,011 


TOTAL 42 1,000 
NOTE : NOUS AVONS FIXE, POUR LES INTERVALLES, DES BORNES ÉLOIGNÉES 


DES PROBLEMES D'ARRONDIS А 5 LIVRES PRES. CELA PERMET DE LIMITER 
LES BIAIS VENANT DES DECLARATIONS DES ETUDIANTS. 


DIRECTIVES POUR CREER DES CLASSES : 

JE SUIS sûr “ 
4) UTILISER DES CLASSES DE МЕМЕ EST-CE QUE 42 ለ. % QUE CEST 
AMPLITUDE AVEC DES CENTRES AUX C'EST BEAUCOUP RELATIVEMENT 
VALEURS ARRONDIES APPROPRIÉES. сугы 


2) POUR UN PETIT NOMBRE DE 
DONNÉES, UTILISER UN PETIT NOMBRE DE 
CLASSES. 


3) POUR UN GRAND NOMBRE DE 
DONNEES, UTILISER PLUS DE CLASSES. 


DANS LE TABLEAU DES EFFECTIFS, NOUS MONTRONS COMBIEN ΡΕ DONNEES SE TROUVENT 

« AUTOUR » DE CHAQUE CENTRE DE CLASSE. ON PEUT AUSSI FAIRE UN DESSIN POUR REPRÉSENTER 
CE TYPE D'INFORMATION. LE DIAGRAMME EN BARRE ASSOCIÉ EST APPELÉ HISTOGRAMME. CHAQUE 
BARRE REPRÉSENTE UNE CLASSE ET EST CENTRÉE SUR LE CENTRE DE CLASSE. LA HAUTEUR 

DU RECTANGLE EST LE NOMBRE DE DONNÉES DANS LA CLASSE. 


15 
10 


100 150 200 


POIDS EN LIVRES 


ON PEUT AUSSI DESSINER UN HISTOGRAMME DES FRÉQUENCES, EN REPORTANT 
LA FRÉQUENCE POUR CHAQUE CLASSE DE POIDS. LE GRAPHE EST EXACTEMENT LE MÊME, 
SEULE L'ÉCHELLE DE L'AXE VERTICAL CHANGE. 


LE STATISTICIEN JOHN ТИКЕУ (1915-2000) 
A INVENTÉ UNE MÉTHODE RAPIDE 

POUR RESUMER DES DONNÉES TOUT 

EN CONSERVANT LES INFORMATIONS 
BRUTES. IL S'AGIT DU DIAGRAMME 
BRANCHE ET FEUILLE. 


POUR NOS DONNEES DE POIDS, LA BRANCHE 
EST UNE COLONNE DE NOMBRES, 
CORRESPONDANT AUX POIDS EN LIVRES 
RANGES PAR DIZAINES (C'EST-À-DIRE 

EN OMETTANT LE DERNIER CHIFFRE). 


POUR LE POIDS DES ÉTUDIANTES 
DE LA PAGE 4, ON AJOUTE LE DERNIER 
CHIFFRE DE CHAQUE POIDS DANS 

LA LIGNE APPROPRIÉE. 


BRANCHE : FEUILLES f CELA SIGNIFIE 
QU'IL Y ል 


:5 DES POIDS DE ds, 
: 288 102, 108, 108, 
: 628855060 


SOIT 40 LIVRES, 100 LIVRES, 


: 0155005525 
: 0800153 

: 05 

: 000 


DE LA MEME MANIERE, ON PEUT FAIRE 
LE DIAGRAMME BRANCHE ET FEUILLE 
DES POIDS DES ETUDIANTS HOMMES. 
а: 

10: 

п: 

12:13 

13 : 005568 " 
14 : 000255558 Ων... 
15 : 0000000355555555557 

16 : 000045 

17 : 000055 

18 ፡ 0005 

14 : 00005 

20 : 

21:5 


TOUS CES 0 ЕТ CES 5 
INDIQUENT CLAIREMENT LE BIAIS DÜ AUX 
INDICATIONS ARRONDIES DES ÉTUDIANTS. 


ENSUITE, ON PEUT RANGER LES «FEUILLES > 
PAR ORDRE CROISSANT. 


BRANCHE : FEUILLES 


:5 

: 288 

: 002556688 
: 0001255555 
: 0001358 


:05 
: 000 


UN ВОМ AFFICHAGE 


GRAPHIQUE DOIT ETRE ` ; 
À LA FOIS ARTISTIQUE ፡ጠ : ЕТ PARFOIS POLITIQUE | 
ET SCIENTIFIQUE. Αρ. 


L'INFIRMIERE DEVOUEE 
FLORENCE NIGHTINGALE (1820-1410) 
A COMPILE LES STATISTIQUES 

DE MORTALITE DANS 

LES HOPITAUX MILITAIRES 
BRITANNIQUES. ELLE A PRODUIT 
DES HISTOGRAMMES TROUBLANTS 
COMME CELUI-CI : LE RAYON 
AUGMENTE AVEC LE NOMBRE 
DE SOLDATS BRITANNIQUES 
MORTS LORS DE LA GUERRE 
DE CRIMÉE (QUE CE SOIT ^ 
DANS LES HOPITAUX OU SUR š ese : AUTRES 
LE CHAMP DE BATAILLE). SU : MORTS 
LA PLUPART DE CES MORTS Сухо à : 

ETAIENT, ET DE LOIN, DUES 

A DES MALADIES INFECTIEUSES. 


SES EFFORTS STATISTIQUES 
ONT DIRECTEMENT PERMIS 
D'AMÉLIORER LES CONDITIONS 
À L'HÔPITAL. CE QUI 

А ENTRAÎNÉ UNE RÉDUCTION 
DU TAUX DE DÉCÈS. ty 
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RÉSUMÉ STATISTIQUE NUMÉRIQUE 


MAINTENANT, PASSONS DES IMAGES AUX FORMULES. NOTRE OBJECTIF 
EST D'OBTENIR DES MESURES SIMPLES DES CARACTERISTIQUES RUDIMENTAIRES 
D'UN ENSEMBLE DE DONNÉES. ö 


DEMENAGEURS 
SYMBOLIQUES BÀ 
« D'UN CÔTÉ À L'AUTRE res 
DE L'ÉQUATION » ΞΑ͂ 


= VALEUR CENTRALE PAR ICI 


<--. 


TOUS LES TYPES DE MESURES 


ONT DEUX DIMENSIONS FORTE VARIABILITE 
IMPORTANTES : LA VALEUR 
OU TENDANCE CENTRALE, 


ET LA VARIABILITE AUTOUR 

DE CETTE VALEUR. 

CETTE IDÉE APPARAÎT 

SUR LES DEUX HISTOGRAMMES FAIBLE VARIABILITÉ 
HYPOTHÉTIQUES REPRÉSENTÉS. 


ON PEUT FAIRE BEAUCOUP DE CHOSES AVEC UN PETIT PEU DE NOTATION. SUPPOSONS 
QUE L'ON AIT UNE SERIE D'OBSERVATIONS... П POUR ÊTRE PRÉCIS... ALORS ON PEUT 
NOTER : 

хо Ху Каен Χμ 


LES DIFFERENTES VALEURS OBSERVEES. 
AINSI, п EST LE NOMBRE TOTAL D'OBSERVATIONS, 
ET x, (РАК EXEMPLE) EST LA VALEUR 


DE LA QUATRIEME OBSERVATION. 


UNE MATRICE EST UN TABLEAU 
DE DONNÉES : 


OBSERVATION 1 


VALEUR 
OBSERVÉE 


SUR UN PETIT ENSEMBLE DE ΠΞ 5 DONNÉES, ON PEUT TOUT FAIRE A LA MAIN. 
FAR EXEMPLE, ON DEMANDE À 5 PERSONNES COMBIEN D'HEURES РАК SEMAINE 
15 PASSENT DEVANT LA TÉLÉVISION... ET VOICI LA MATRICE DES RÉSULTATS : 


OBSERVATION 1 2 8 4 5 
VALEUR 7 3 3g 7 
OBSERVÉE 


ALORS %, = 5, x, = 7, х, = 3, x, = 38, х = 7 


QUEL EST LE < CENTRE” 

DE CES DONNÉES ? EN FAIT, 

IL EXISTE DIFFÉRENTES RÉPONSES 
À CETTE QUESTION. NOUS ALLONS 
EN EXAMINER DEUX. 


LA MOYENNE 


LA MOYENNE EST REPRÉSENTÉE 
PAR κ. ELLE EST OBTENUE 

EN AJOUTANT TOUTES LES DONNÉES 
OBSERVEES ET EN DIVISANT 

PAR LE NOMBRE D'OBSERVATIONS. 


x = SOMME DES DONNEES 
n 


Е X + %;+ ... +, 


п 


POUR МОТКЕ EXEMPLE, 


— 54748-43847 _ 60 
% ን се ων... 


= 12 HEURES 


IL EXISTE UNE NOTATION MATHÉMATIQUE 
PARTICULIÈRE POUR LA SOMME χι + %, +. + % y 
ON UTILISE DANS СЕ CAS LA LETTRE GRECQUE 
SIGMA. 
MENS 


AU LIEU DE 4, +4, +. +% , ON ÉCRIT : 


n 
ET ON LIT < SOMME 


DE x, POUR i ÉGAL 
ТА n>. 


x 


RÉPÉTEZ-LE 
DIX FOIS ET VOUS 
NE L'OUBLIEREZ 


SUPER! CETTE FOIS 
CELA RESSEMBLE 
VRAIMENT À UN BOUQUIN 
DE STATISTIQUES 


DANS LE CAS DES 42 ÉTUDIANTS DE PENN STATE, 
LE POIDS MOYEN EST : 


LA MÉDIANE ccr UNE AUTRE MESURE DE TENDANCE CENTRALE : IL S'AGIT DU «MILIEU» 
QUI PARTAGE EN DEUX L'ENSEMBLE DES DONNÉES, TOUT COMME LA MÉDIANE D'UN TRIANGLE 
OU LE TERRE-PLEIN CENTRAL D'UNE AVENUE. 


POUR TROUVER LA MÉDIANE D'UN ENSEMBLE 
DE DONNÉES, IL FAUT TRIER PAR ORDRE 


CROISSANT LES DONNEES. 3 5 7 7 3 € 

LA MÉDIANE EST ALORS 

LA VALEUR CENTRALE. Pd 
LA MÉDIANE 


SI LE NOMBRE D'OBSERVATIONS EST PAIR, IL N'Y A PAS VRAIMENT DE VALEUR CENTRALE. 
ON PREND ALORS LA MOYENNE DES DEUX VALEURS AUTOUR DU MILIEU... 
AINSI SI LES DONNÉES SONT : 


8 5,7 προ tte 


ESPACE CENTRAL 


CELA NOUS DONNE LA REGLE GÉNÉRALE 
DE CALCUL : ON TRIE PAR ORDRE 
CROISSANT LES DONNÉES. 


C'EST BIEN LA MÉDIANE 
DE LA ROUTE, 


SI LE NOMBRE D'OBSERVATIONS EST s 
MAIS OÜ EST LE TERRE-PLEIN ? 


IMPAIR, LA MÉDIANE EST LA VALEUR 
CENTRALE. 


ΘΙ LE NOMBRE D'OBSERVATIONS EST 
PAIR, LA MÉDIANE EST LA MOYENNE 
DES DEUX DONNÉES CENTRALES SITUEES 
AUTOUR DU MILIEU. 


POUR LES n = 42 POIDS D'ÉTUDIANTS, 4:5 


ON PEUT CALCULER LA MÉDIANE A PARTIR 10 : 288 
DU DIAGRAMME BRANCHE ET FEUILLE TRIÉE. ቨ : 002556688 
IL SUFFIT DE COMPTER JUSQU'À LA 46° OBSERVATION. 12 : 00012355555 
LA MEDIANE EST ALORS 13 : 0000013555688 
14 : 00002555558 
15 : 0000000000355555555557 
Mast May 145 + 145 16 : 000045 
2 MEER - 17 : 000055 
18 : 0005 
= 145 LIVRES (environ 6577 kg) 14 : 00005 


20: 


21:5 
IL Y A EXACTEMENT 46 DONNÉES INFÉRIEURES 


ET 46 DONNÉES SUPERIEURES А 145 LIVRES. 


POURQUOI UTILISONS-NOUS DEUX MESURES DIFFÉRENTES DE TENDANCE CENTRALE ? 

EN FAIT, ELLES N'ONT PAS LES MÊMES PROPRIÉTÉS. PAR EXEMPLE, LA MÉDIANE NEST 

PAS SENSIBLE AUX DONNÉES EXTREMES QUI SONT ATYPIQUES PAR RAPPORT AUX AUTRES 
OBSERVATIONS. SUPPOSONS QUE DANS NOTRE PETIT ÉCHANTILLON DE TELESPECTATEURS, 
UNE PERSONNE REGARDE LA TELEVISION 200 HEURES PAR SEMAINE. 5! NOS DONNEES 

SONT 13, 5, 5, 7, 200}, LA MÉDIANE EST ENCORE 7 ALORS QUE LA MOYENNE EST MAINTENANT 


EN PLUS, 
TU FAUSSES AUSSI 
LA HAUTEUR 
ΜΟΥΕΝΝΕΙ 


ЕМ 1484, L'UNIVERSITE ΡΕ VIRGINIE А АММОМСЕ 

QUE LES DIPLOMES DE SON DEPARTEMENT DE COMMUNICATION 
ET RHETORIQUE AVAIENT UN SALAIRE MOYEN D'EMBAUCHE 
DE 55 000 $ PAR ΑΝ. PARMI LES DONNEES, FIGURAIT 

LE SALAIRE FARAMINEUX D'UN ETUDIANT DEVENU CENTRE 

DE LA FAMEUSE NBA ET QUI ETAIT PEU REPRESENTATIF 
DU SALAIRE POTENTIEL DES ETUDIANTS DIPLOMES 

EN COMMUNICATION. LE SALAIRE MEDIAN NE FUT PAS 
PUBLIÉ... 


Mesures de 
DISPERSION 


(OU DE VARIABILITE) 


BONJOUR 
LE CONFORMISME ! 


OUTRE LE CALCUL DE TENDANCE 


CENTRALE D'UN ENSEMBLE 

DE DONNÉES, NOUS SOUHAITERIONS 
AUSSI CONNAÎTRE LA DISPERSION 
DES DONNEES (DE COMBIEN 


LES DONNEES S'ELOIGNENT 

DU CENTRE). PAR EXEMPLE, 

61 LES ÉTUDIANTS PESAIENT 

TOUS EXACTEMENT 145 LIVRES, 
IL N'Y AURAIT AUCUNE VARIABILITE. 
NUMÉRIQUEMENT, LA VARIANCE 
SERAIT ÉGALE À ZÉRO 

ET L'HISTOGRAMME SERAIT 

TRÈS «LÉGER». 


MAIS SI BEAUCOUP D'ÉTUDIANTS ETAIENT TRES MAIGRES ET/OU D'AUTRES TRES LOURDS, 
NOUS AURIONS EVIDEMMENT UNE GRANDE VARIABILITE - PAR EXEMPLE, 
SI L'ÉQUIPE DE FOOTBALL AMÉRICAIN FAISAIT PARTIE DE L'ÉCHANTILLON... 


IIIA 


А NOUVEAU, IL Y A PLUSIEURS FACONS DE DÉFINIR LA DISPERSION. L'UNE D'ELLES EST 


L'ETENDUE INTERQUARTILE. 
L'IDEE EST DE DIVISER 
LES DONNEES EN QUATRE т ፡. 1. p 


GROUPES ET DE MESURER У 
LA DISTANCE ENTRE LES DEUX < 2 Н 


GROUPES EXTRÉMES. А 


VOICI LA RECETTE : ህ 


: < а, = MÉDIANE 
τῷ DES GRANDES VALEURS 


1) ОКРОММЕК LES DONNEES PAR ORDRE CROISSANT. 


SUPERIEUR 


2) DIVISER LES DONNEES EN UN GROUPE EN DESSOUS N 
ET UN GROUPE AU-DESSUS DE LA MÉDIANE .. 
(SI LA MÉDIANE CORRESPOND А UNE OBSERVATION, 


u . 
LA METTRE DANS CHAQUE GROUPE). РӘ κ 
а 
| "EM 
ኃን CHERCHER LA MÉDIANE DU GROUPE INFÉRIEUR. ቅን 
IL S'AGIT DU PREMIER QUARTILE NOTE (2. و‎ 
4) CHERCHER LA MÉDIANE DU GROUPE SUPÉRIEUR. И ou а = MÉDIANE 
IL S'AGIT DU TROISIÈME QUARTILE NOTE Ω,. 8ኮ”፦ DES FETITES VALEURS 
t ke 


MAINTENANT, L'ETENDUE INTERQUARTILE EIQ EST LA DISTANCE, 
OU LA DIFFERENCE, ENTRE CES DEUX QUARTILES : 


EIQ = Q, - Q 
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VOICI LES DONNÉES DE POIDS 
AVEC LES MÉDIANES DES POIDS 
INFÉRIEURS ET SUPÉRIEURS 
MIS EN ÉVIDENCE : 


4:5 

10 : 288 

ቨ ፡ 002556688 

12 : 00012355555 

18 : 0000013555688 _MEDIANE 
14 : 000025555 

15 : 0000000000355555555557 
16 : 000045 P 
I7 : 000055 Q, 
18 : 0005 

Id : 00005 


21:5 
ET ON VOIT QUE 


EIQ = 156 - 125 
= 31 LIVRES 


AINSI, IL S'AGIT DE LA DIFFERENCE ENTRE 
LA MEDIANE DES POIDS ELEVES ET CELLE 
DES POIDS LEGERS. 


Tu ES 
UN FOOTBALLEUR 
DE CLASSE 
MOYENNE ? 


JE NE SAIS PAS 
MAIS TOI TES LOURDE... 


JOHN TUKEY A INVENTÉ UNE AUTRE FAÇON 

DE REPRÉSENTER L'EIQ, QUE L'ON APPELLE 

UNE BOÎTE À PATTES. LES LIMITES DE LA BOÎTE 
SONT LES QUARTILES Q, ET Q,. ON TRACE 

LA MÉDIANE À L'INTÉRIEUR DE LA BOÎTE. 


а а 


8 


e 
120 130 135 140 145 150 155 


SI UN POINT EST À PLUS DE 1,5 EIQ DES LIMITES 
DE LA BOÎTE, ALORS C'EST UNE VALEUR EXTREME. 


ON LES REPRESENTE INDIVIDUELLEMENT PAR DES POINTS. 


ο. s 


-<----+---+--+------- 
135 145 155 ... 200 


ENFIN, ON AJOUTE LES «ΡΑΤΤΕΘ» JUSQU'AUX 
DERNIÈRES OBSERVATIONS QUI NE SONT PAS 
DES VALEURS EXTREMES (C'EST-À-DIRE À MOINS 
DE 1,5 EIQ). 


ie ЖК Ө ο 


መፔ ግ ማም Gort kak 1ፐ ግመ ሚት ER о з 


LES BOÍTES А PATTES 

SONT EXTRÉMEMENT 200 ° 
UTILES POUR FAIRE 

RESSORTIR 

LES DIFFÉRENCES 
ENTRE DES GROUPES. 
VOICI LES DEUX 
REPRESENTATIONS 
POUR LES ÉTUDIANTS 0 

HOMMES ET FEMMES. F H 


150 
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LA MESURE STANDARD DE VARIABILITE EST 
L'ÉCART-TYPE. 


CONTRAIREMENT À L'EIQ, QUI EST BASÉE 
SUR LES QUARTILES, L'ÉCART-TYPE MESURE 
LES ÉCARTS À LA MOYENNE. ON PEUT 

EN GROS RETENIR QU'IL S'AGIT DE L'ÉCART 
MOYEN DES DONNÉES PAR RAPPORT 

À LA MOYENNE ን. 


SAUF QU'EN RÉALITÉ, ON UTILISE LES CARRÉS DE CES ÉCARTS. AINSI, LE CARRÉ 
DE L'ÉCART ENTRE %, ET Ж ÉTANT (х, - X)", ON OBTIENT : 


n 


MOYENNE DES CARRÉS DES ECARTS = 7 > -х) 
i=1 


POUR DES RAISONS TECHNIQUES, ON UTILISE r1 - 1 AU DÉNOMINATEUR PLUTÓT 
QUE n, ET ON DÉFINIT ALORS LA VARIANCE D'ÉCHANTILLON 57 COMME : 


82) - 


POUR L'ÉCHANTILLON 13, 5, 7, 7, 38}, ON AVAIT X; = 12 
ET n = 5, ON CALCULE ALORS LA VARIANCE : 


(s -12)# + (s - 12 + (7 - 12) + (т-12) + (38 -12) 
(5-1) 


ICI, LA VARIANCE 
ÉLEVÉE REFLÈTE 
LA FORTE DISPERSION 


8] + 44 + 25 + 25 + 676 
4 


UNE MESURE DE DISPERSION DOIT ÉTRE 

DE MÉME UNITÉ QUE LES DONNÉES 
ORIGINALES. MALHEUREUSEMENT, 

DANS L'EXEMPLE DES POIDS, LA VARIANCE S 
EST EN LIVRES AU CARRÉ... OUPS! 


LA RACINE CARRÉE, CE QUE NOUS FAISONS 


ΤῊΝ NUE IL EST ÉVIDENT QU'IL SUFFIT DE PRENDRE 
А POUR DEFINIR : 


L'ÉCARTTYPE <-7 - Y. Y 6s) 


CE QUI DONNE POUR NOTRE ÉCHANTILLON DE DONNÉES : 


s = V214 - 14,63 


QUI DIABLE 
SE RAPPELLE 
COMMENT UTILISER 
DES RACINES 


MÉME POUR UN FAIBLE NOMBRE 

DE DONNÉES, LES CALCULS PEUVENT 
ÉTRE FASTIDIEUX! HEUREUSEMENT 
AUJOURD'HUI, IL SUFFIT D'APPUYER 
SUR LE BOUTON D'UNE CALCULATRICE 
OU DE CONSULTER LE RAPPORT DE 
DONNÉES GÉNÉRÉ PAR UN LOGICIEL 
INCLUANT UN PACK STATISTIQUE. 


Propriétés 
3፡ 22272 
66 x et 5 D Р 


LA МОУЕММЕ ЕТ L'ECART-TYPE 

RESUMENT TRES BIEN LES PROPRIETES 

DES HISTOGRAMMES SYMETRIQUES 

SANS VALEURS EXTREMES, TEM 
C'EST-À-DIRE LES HISTOGRAMMES 


EN FORME DE MONTICULE. 9 


IL EST SOUVENT UTILE DE SAVOIR А COMBIEN D'ÉCARTS-TYPES ЗЕ TROUVE UNE DONNÉE 
PAR RAPPORT A LA MOYENNE. ON DÉFINIT ALORS LE Z-SCORE, OU VARIABLE СЕМТКЕЕ 
REDUITE, COMME LA DISTANCE D'UNE OBSERVATION A LA MOYENNE PAR ECART-TYPE. 


2< а POUR CHAQUE i. 


UN Z-SCORE DE + 2 SIGNIFIE QUE L'OBSERVATION EN QUESTION EST À DEUX ÉCARTS-TYPES 
AU-DESSUS DE LA MOYENNE. POUR L'ÉCHANTILLON DE POIDS (х = 145,2 ET S = 23,7), 
ON PEUT REPRÉSENTER LES DONNÉES INITIALES SUR L'AXE DES POIDS EN LIVRES ET LEUR Z-SCORE. 


175 
cxtat DA +, 1 
100 150 200 
fp ያ መች” ሙኬ፡ጫፄ፡ጹለመንጅ:::.” መክ 
-2 + -0 4 2 
Z-SCORE 
1,26 
175 -145,2 Ἢ 
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ON А BEAUCOUP AVANCE DANS СЕ CHAPITRE! A PARTIR D'UN TAS DÉSORGANISÉ DE NOMBRES, 
NOUS AVONS : 


1) τκουνέ DIFFERENTES FAÇONS p" 
DE LES REPRÉSENTER VISUELLEMENT; 


WAOUH! J'EN SUIS 
ON A FAIT SÜR 


Ф) ΕχλΜινέ DEUX CONCEPTS DIFFÉRENTS TOUT CA? Ааа %... 
DE TENDANCE CENTRALE : LA MÉDIANE 
ET LA MOYENNE; 


3) MESURÉ LA DISPERSION DES DONNÉES 
AUTOUR DU CENTRE DE DEUX FAÇONS 
DIFFÉRENTES ; 


4) RENCONTRE DES HISTOGRAMMES 

EN FORME DE MONTICULE, ET DÉFINI Z, 

UNE VARIABLE QUI INDIQUE À COMBIEN 
D'ÉCARTS-TYPES ON SE TROUVE PAR RAPPORT 
À LA MOYENNE. 


MAINTENANT, AFIN D'EXPLORER LE COMPORTEMENT DES DONNÉES DE FAÇON PLUS 
PRÉCISE, NOUS ALLONS FAIRE UN PETIT DÉTOUR DANS LE DOMAINE DE L'ALÉATOIRE... 
UN MONDE OÜ TOUT FONCTIONNE TOUJOURS А MERVEILLE SUR LE LONG TERME, 

ET OÜ LA SEULE LOI QUI TIENNE EST LA LOI DU CASINO. 


^ 
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Chapitre 3 


LES PROBABILITÉS 


ем N'EST SUR ET CERTAIN DANS LA VIE. DANS TOUT СЕ QUE NOUS FAISONS, 
NOUS ÉVALUONS LES CHANCES DE SUCCES OU D'ÉCHEC, 
DU BUSINESS A LA MEDECINE EN PASSANT PAR LA METEOROLOGIE. 
MAIS DEPUIS LES DEBUTS DE L'AVENTURE HUMAINE, LE CALCUL 
DES PROBABILITES, QUI CONSISTE A ETUDIER FORMELLEMENT LES LOIS 
DU HASARD, AVANT TOUT, A ETE UTILISE DANS LE DOMAINE DES JEUX D'ARGENT. 


P mm 
PERSONNE NE SAIT QUAND ΤΝ 
LES JEUX D'ARGENT SONT APPARUS 
DANS L'HISTOIRE. CELA REMONTE geriet 
AU MOINS AU TEMPS DE L'ÉGYPTE ABTRAGNES... 
ANCIENNE OU DES HOMMES JE VEUX DÉFIER 
ET DES FEMMES SE DIVERTISSAIENT LA MORT! 
AVEC DES ASTRAGALES 
(05 À QUATRE FACES PRÉLEVÉS ме 
SUR LES PIEDS DES ANIMAUX). 


L'EMPEREUR ROMAIN CLAUDE 1°" (ιο Av. J.-C. — 54 APR. J.-C.) A ÉCRIT LE PREMIER TRAITÉ 
SUR LES JEUX DE HASARD. MALHEUREUSEMENT SON LIVRE COMMENT GAGNER AUX DES 


A ÉTÉ PERDU. 


RÈGLE | : LAISSEZ 
CESAR GAGNER 
IV FOIS SUR V! 


LES DÉS MODERNES ONT ETE POPULAIRES AU MOYEN AGE PUIS A LA RENAISSANCE. 
AU хи SIÈCLE, LE CHEVALIER DE MERE (1607-1684 ) FORMULA UNE ÉNIGME MATHÉMATIQUE : 


አ. 


/ QUE VAUT-IL MIEUX PARIER ፡ 


FAIRE UN SIX 
EN QUATRE LANCERS 
D'UN DE 00 FAIRE 
UN DOUBLE SIX 
EN 24 LANCERS 
D'UNE PAIRE DE DES ? 


LE CHEVALIER RAISONNA SUR LE NOMBRE 


MOYEN DE SUCCES ET IL EN DEDUISIT 
QUE, DANS LES DEUX CAS, CE NOMBRE 
ETAIT LE MEME : 

PROBABILITE D'UN SIX = 1 
NOMBRE МОУЕМ 2 
EN 4 LANCERS = 4(1/6) = 3 


PROBABILITÉ | 
D'UN DOUBLE SIX = 35 


NOMBRE MOYEN " 
EN 24 LANCERS = 20/26) = 3 


ALORS, POURQUOI PERDAIT-IL 


PLUS SOUVENT AVEC LE SECOND PARI? 


ΕΝΗΝ ο арш BIEN QUE PASCAL АП CESSÉ L'ÉTUDE 
ር DES MATHEMATIQUES, JUGÉE COMME 


в: 


PASCAL ECRIVIT A SON COLLEGUE 
DE GENIE PIERRE DE FERMAT 
(1601-1665), ET APRÈS QUELQUES 
ECHANGES EPISTOLAIRES, 

ILS POSERENT LES BASES 

DE LA THEORIE DES PROBABILITES 


SOUS SA FORME MODERNE 
— EXCEPTE BIEN SUR CETTE 
VERSION EN BANDE DESSINEE. 


UN DIVERTISSEMENT D'ORDRE SEXUEL(!), 
IL ACCEPTA DE S'ATTAQUER AU PROBLÈME 
DE MÉRÉ. 


CHER PIERRE, 
QUELLE MERVEILLEUSE 
THÉORIE NOUS AURIONS, 
SI L'UN DE NOUS 
ÉTAIT CAPABLE 
DE DESSINER... 
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Définitions préliminaires 
DE MEME QU'UN PARIEUR JOUE, DE MÊME QUEL JEU? 


NOUS ALLONS JOUER AU SCIENTIFIQUE LA ROULETTE? 
EN OBSERVANT LES RESULTATS : 


UNE expérience aléatoire ест UN PROCÉDÉ 
QUI PERMET D'OBSERVER UN RÉSULTAT, 
OU UN ÉVÉNEMENT, DETERMINE PAR UN ALEA. 


Les événements élémentaires 
CORRESPONDENT À TOUS LES RÉSULTATS 
POSSIBLES DE L'EXPÉRIENCE ALÉATOIRE. 


L'espace échantillon кэт L'ENSEMBLE 
OU LA COLLECTION DE TOUS LES ÉVÉNEMENTS 
ÉLÉMENTAIRES. 


PAR EXEMPLE, Si L'ÉVÉNEMENT EST LES ÉVÉNEMENTS ÉLÉMENTAIRES 
UN LANCER DE PIÈCE, L'EXPÉRIENCE SONT SOIT FACE, SOIT PILE. 
ALÉATOIRE CONSISTE À ENREGISTRER 

LE RÉSULTAT. 


L'ESPACE ÉCHANTILLON EST L'ENSEMBLE 
SUIVANT : 


(ЕР)! 


ЕТ Si C'EST 
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L'ESPACE ECHANTILLON D'UN LANCER D'UN SEUL DE EST UN PEU PLUS GRAND. 


[ЯКЫН 


ЕТ POUR LE LANCER D'UNE PAIRE DE DES, L'ESPACE ÉCHANTILLON RESSEMBLE 
A CECI (ON A PRIS UN DE BLANC ET UN DE NOIR POUR MIEUX DIFFERENCIER LES CAS) : 


EH E: GIRA E 1168 BEB. 1164 
Μι HR ЕМ... :-: 4 
РЕН JE |: HR : 59 1. 
LIEB. CLER «ΗΒ «ΚΜ. 
"EB LER "HR І. 7 70 |. '፳፪ 
E: : -መ ዌቭ E LG 


L'ESPACE ÉCHANTILLON 
COMPORTE 36 (6 x 6) 
ÉVÉNEMENTS ÉLÉMENTAIRES. 
AVEC TROIS DÉS, L'ESPACE 
COMPORTERAIT 216 ÉLÉMENTS 
COMME DANS CETTE MATRICE 
6 x 6 x 6. ET ALORS, POUR 
QUATRE DÉS ? 


( 4 EA ( ASSEZ! ) 
AU BOUT D'UN MOMENT, IL FAUT ARRÉTER 


| DE LISTER POUR COMMENCER А RÉFLÉCHIR... 


IMAGINONS MAINTENANT 

UNE EXPERIENCE ALÉATOIRE AVEC П 
RESULTATS ELEMENTAIRES NOTES О, 
ዕኔ ... O. ON VEUT ASSOCIER A CHAQUE 
RESULTAT UN POIDS NUMERIQUE, 


OU UNE PROBABILITE QUI MESURE 

LA VRAISEMBLANCE DE L'OCCURRENCE 
DE L'ÉVÉNEMENT. LA PROBABILITÉ DE O, 
se NOTE Р(О,). 


PAR EXEMPLE, DANS UN LANCER 
D'UNE PIÈCE (SANS TRICHER), 
LES CÔTÉS FACE ET PILE SONT 
ÉGALEMENT VRAISEMBLABLES. 
LA PROBABILITÉ DE CHACUN 
EST DE 0,5. 


F(F) = P(P) = 0,5 


CHAQUE ÉVÉNEMENT A LIEU 
UNE FOIS SUR DEUX. DEMANDEZ N 
À UN JOUEUR DE FOOTBALL ! p^ e 


DANS UN LANCER DE DEUX DES, IL Y A 86 ÉVÉNEMENTS ÉLÉMENTAIRES. 
TOUS SONT AUSSI VRAISEMBLABLES, CHAQUE PROBABILITÉ EST DONC DE 1/36. 


— T 


1 MILLIARD, 200 MILLIONS... 


P(NOIR = s, BLANC = 2) = dé ВІА BLA BLA... ET SIX... 


FAR EXEMPLE, 


CELA SIGNIFIE QUE SI ON LANCE LES DEUX DES 
UN TRÈS GRAND NOMBRE DE FOIS, SUR LE LONG 
TERME CE RÉSULTAT ARRIVERA 1 FOIS SUR 36. 
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QUE ЗЕ PASSE-T-IL SI NOTRE JOUEUR 
TRICHE EN UTILISANT UN DE PIPE? 
POUR SIMPLIFIER, SUPPOSONS 

QUE LA FACE 1 APPARAISSE 25 % 

DU TEMPS (SUR LE LONG TERME). 


L'ESPACE ÉCHANTILLON 
EST LE MÊME QUE CELUI 
DUN DÉ NORMAL Q EJ E] E] 
H 0,15 0,15 0,15 0,15 
{1, 2, 3, 4, 5, 6} 


PAR CONTRE, LES PROBABILITES 


DIFFERENT. MAINTENANT P (1) = 0,25 < 
ET LES PROBABILITÉS RESTANTES 3 
DOIVENT SE SOMMER А 0,75. 

SI 2, 8, 4, 5, ET 6 RESTENT ÉQUIPROBABLES, 


ALORS CHAQUE FACE AURA UNE PROBABILITÉ 
DE 0,15 = 1 (0,75). 


EN GÉNÉRAL, LES ÉVÉNEMENTS ÉLÉMENTAIRES N'ONT PAS LA MÉME PROBABILITÉ. 


LA PROBABILITÉ 
DE PRÉCIPITATION 
EST DE 20 %... 


MA PROBABILITE 
DE SORTIE 
EST DE 5 $... 


MAINTENANT, QUE POUVONS-NOUS DIRE 
DES PROBABILITES P( 0) DANS UNE EXPERIENCE 


ALÉATOIRE QUELCONQUE. PREMIÈREMENT, PRE 


QU'IMPOSSIBLE 
N'EST PAS POSSIBLE ? 


P(0)=0 


LES PROBABILITÉS NE SONT JAMAIS = 
NÉGATIVES. UNE PROBABILITÉ DE ZÉRO VEUT ETE 
DIRE QUE L'ÉVÉNEMENT N'AURA JAMAIS LIEU. ከች... 
UNE VALEUR STRICTEMENT INFÉRIEURE А ZÉRO 


N'AURAIT AUCUN SENS. 


DEUXIÈMEMENT, S'IL EST CERTAIN QU'UN ÉVÉNEMENT AURA LIEU, NOUS LUI ASSIGNONS UNE PROBABILITÉ 
DE 1 (SUR LE LONG TERME, C'EST LA PROPORTION DE FOIS QU'IL SE PRODUIRA). 


EN PARTICULIER, 

LA PROBABILITÉ 

TOTALE DE L'ESPACE OH... 
ÉCHANTILLON рот C'EST MÉTAPHYSIQUE! 


ÊTRE ÉGALE À 1. SI L'ON CONDUIT L'EXPÉRIENCE, 
QUELQUE CHOSE ARRIVERA, FORCÉMENT ! 


— -.Ἂα 


EN COMBINANT LES DEUX, ON OBTIENT LES PROPRIÉTÉS CARACTÉRISTIQUES 
DES PROBABILITES : 


Р( 0) > 0 UNE PROBABILITÉ EST POSITIVE. 
P(O) + Р(0,) + ~ + F(0) =1 LA PROBABILITE TOTALE DE TOUS 


LES EVENEMENTS ELEMENTAIRES EST UN. 


Ет ө ( < σου 


ГА METAPHYSIQUE 
ΜΕ КЕМОАТ 
МА CHEMISE... 
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À LA FAÇON D'UN HABILE POLITICIEN, 
NOUS AVONS ÉVITÉ CERTAINES 
QUESTIONS DÉPLAISANTES, 


DE QUELQUE CHOSE 
COMME : DE PLUS SIMPLE COMME 
A) QUE SIGNIFIE EXACTEMENT LE RÉCHAUFFEMENT 
UNE PROBABILITÉ ? CLIMATIQUE... 
ET B) COMMENT DÉFINIR 


LES PROBABILITES DES ÉVÉNEMENTS 
ÉLÉMENTAIRES ? 


VOICI QUELQUES-UNES DES APPROCHES POSSIBLES : 


LES PROBABILITES Classiques : 

ELLES REPOSENT SUR DES IDÉES GÉNÉRALES 
SUR LES JEUX. L'HYPOTHÈSE FONDAMENTALE 
EST QUE LE JEU EST ÉQUITABLE ET QUE TOUS 
LES ÉVÉNEMENTS ÉLÉMENTAIRES ONT LA MÉME 
PROBABILITÉ, 


ALLEZ! 
PAPA A BESOIN D'UNE 
NOUVELLE THEORIE! 


LES PROBABILITÉS personnelles : 

LA PLUPART DES ÉVÉNEMENTS DE LA VIE 

NE SONT PAS RÉPÉTABLES. UNE 
PROBABILITÉ PERSONNELLE EST UNE ESTIMATION 
INDIVIDUELLE ET PERSONNELLE 

DE LA VRAISEMBLANCE D'UN ÉVÉNEMENT. 

SI UN PARIEUR ESTIME QU'UN CHEVAL 

A PLUS DE 50 % DE CHANCES DE GAGNER, 

IL MISERA SUR CE CHEVAL. 


COMMENT EN ES-TU SÛR ? 


LA CONNAISSANCE 


Heu, HEU... 
DISCUTONS PLUTOT 


Les fréquences (relatives) : QUAND 
UNE EXPERIENCE PEUT ETRE REPETEE, ALORS 

LA PROBABILITE D'UN EVENEMENT 

EST LA PROPORTION D'OCCURRENCES 

DE L'ÉVÉNEMENT SUR LE LONG TERME. 


UN OBJECTIVISTE UTILISERA SOIT LA DÉFINITION 
CLASSIQUE, SOIT LES FREQUENCES COMME 
PROBABILITES. UN SUBJECTIVISTE 
OU UN BAYÉSIEN* APPLIQUERA LES LOIS 
FORMELLES DU HASARD POUR SES PROBABILITES 
PERSONNELLES OU LES VOTRES. 
——n — 
COMMENT SAIS-TU 91 
LES EVENEMENTS ELEMENTAIRES 
ΘΟΝΤ EGALEMENT DISTRIBUES 


SANS LANCER UN DE UN MILLIARD 


*DE THOMAS BAYES (VOIR PAGE 47). 


Les opérations де base 


JUSQU'A PRESENT, NOUS AVONS DISCUTE 
UNIQUEMENT DES PROBABILITES DES EVENEMENTS 
ELEMENTAIRES. EN THEORIE, CELA SUFFIT POUR 
DÉCRIRE N'IMPORTE QUELLE EXPERIENCE ALÉATOIRE, 
MAIS DANS LA PRATIQUE, C'EST PEU MANIABLE. 

PAR EXEMPLE, L'OCCURRENCE D'UN JET DE SOMME 7 
AVEC DEUX DÉS N'EST PAS UN ÉVÉNEMENT 
ÉLÉMENTAIRE. NOUS INTRODUISONS DONC 

UNE NOUVELLE IDÉE. 


UN ÉVÉNEMENT EST UN ENSEMBLE D'ÉVÉNEMENTS ÉLÉMENTAIRES. LA PROBABILITÉ 
D'UN ÉVÉNEMENT EST LA SOMME DES PROBABILITÉS DES ÉVÉNEMENTS ÉLÉMENTAIRES 
DE L'ENSEMBLE. VOICI DES EXEMPLES D'ÉVÉNEMENTS LORSQU'ON LANCE DEUX DÉS : 


DESCRIPTION DE L'ÉVÉNEMENT ÉVÉNEMENTS ÉLÉMENTAIRES PROBABILITÉS 
RÉALISANT L'ÉVÉNEMENT 


А: SOMME DES DÉS = 3 {(1,2), (21)} P(A) = 5 
В: SOMME DES DÉS = 6 {(,5), (2,4), (3,3), (4,2), (51)} P(B) = % 


C: DÉ BLANC = 1 {(11), (12), (1,3), (54), (15), P(O = ας 
(,6)} 


D: DE NOR =1 {(1), (2,1), (зл), (44), (5), P(D) = ας 


6,1 


ET QUAND 
EST-CE QUE 
JE RÉCUPÈRE 

MA CHEMISE ? 
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L'AVANTAGE D'UTILISER 
DES EVENEMENTS, ET PLUS 


SEULEMENT DES EVENEMENTS JUSTE TROIS 


PETITS MOTS, 


ELEMENTAIRES, EST DE POUVOIR 4 

LES COMBINER POUR CREER в πο 
DE NOUVEAUX EVENEMENTS 

EN UTILISANT DES OPERATEURS 

LOGIQUES. LES MOTS-CLÉS 

UTILISES SONT ET, OU ET NON. 


AINSI, ETANT DONNE DEUX EVENEMENTS E ET F, ON PEUT 
CREER LES NOUVEAUX EVENEMENTS : 


E et Е: où LES ÉVÉNEMENTS Е ет F ONT LIEU EN MEME TEMPS. 
E OU Е: ob sor E A LIEU, SOIT F, SOIT LES DEUX EN MEME TEMPS. 
ПОП Е: 00 L'EVENEMENT Е МА PAS LIEU. 


ЕМ COMBINANT NOS DEFINITIONS ሥመ. መመመ 


DE BASE SUR LES PROBABILITÉS 

AVEC CES OPERATEURS LOGIQUES, JE SUIS UN JOUEUR COMPULSIF 

NOUS OBTENONS DE PUISSANTES ET J'AI PERDU MA CHEMISE 

FORMULES POUR MANIPULER ET M. PASCAL TRAVAILLE TOUJOURS 
- SUR MON PROBLEME. QUELLES SONT 

LES PROBABILITES. MES CHANCES WITH YOU, DARLING? 


AUN ει 


REVENONS À L'EXEMPLE DES LANCERS DE DES. SI C EST L'ÉVÉNEMENT [ዐድ BLANC = 1] 
ET D EST L'ÉVÉNEMENT [DE NOIR = 1] ALORS 


СЕТ D EST 
L'INTERSECTION 


ЕН Ни: EHI: ` Hi. В.“ Hi: | (LE CHEVAUCHEMENT) 


DES PARTIES 


[ΒΗ RH EX: : [:: Κα EX. ° tm HACHURÉES 


ПЕГЕН СОВА ГЕ ИШГЕ nn 
ЛЕ ЛЕЯ ГНИ ГЕЙ LC со. oc, 
E E EE LE CN CER ue e= 


m::m-mr леле. | oo u vons 
Ë: | L'UN DES DÉS VAUT 1. 


CELA ILLUSTRE LA RÈGLE D'ADDITION : POUR TOUT ÉVÉNEMENT Е ET F, 


P(E OU F) = P(E) + P(F) - P(E ET Е) 


EN EFFET, LA SOMME P(E) + P(F) COMPTE DEUX FOIS LES EVENEMENTS 
ELEMENTAIRES DE E ET F, NOUS DEVONS DONC RETIRER CETTE QUANTITE 
QUI CORRESPOND A P(E ET F), 


DANS L'EXEMPLE CITE PLUS HAUT, 
ቨ 
P(C ou D) = зе 


COMME VOUS POUVEZ LE VOIR 2 
ЕМ СОМРТАМТ LES ÉVÉNEMENTS » J'AI UNE LUEUR 
ÉLÉMENTAIRES. DE MÊME, ce N° D'ESPOIR! 


_ 1 
P(C ET D) = ας 


ET ON CONFIRME ALORS LA FORMULE : 


P(C) + P(D) - P(C ET D) 
т - +36 36 


= P(C ou D) 


PARFOIS LE CHEVAUCHEMENT OU L'INTERSECTION Е ЕТ F EST VIDE, ET LES DEUX 
EVENEMENTS NE PARTAGENT AUCUN EVENEMENT ELEMENTAIRE. ማያ СЕ CAS, ON ОТ 
QUE Е ET F SONT MUTUELLEMENT EXCLUSIFS DE SORTE QUE P(E ET Е) = = 0. 
DANS LE DESSIN SUIVANT, ON VOIT QUE LES EVENEMENTS A [SOMME DES DES = 3] 
ET B [SOMME DES DES = 6] SONT MUTUELLEMENT EXCLUSIFS. 


HE EERE 118 ДЕЕ. ΠΕ 


POUR DES ÉVÉNEMENTS MUTUELLEMENT EXCLUSIFS, ON A UNE LOI SPÉCIALE D'ADDITION : 
Sı E ET F SONT MUTUELLEMENT EXCLUSIFS ALORS 


P(E OU F) = P(E) + πα 


ET ON PEUT VERIFIER P(A OU В) = ተ t P(A) + P(B) 


ET ENFIN UNE REGLE DE SOUSTRACTION : POUR TOUT EVENEMENT E, 
P(E) = 1 - P(NON E) 


CETTE REGLE EST TRES UTILE LORSQUE P(NON E) EST PLUS FACILE A CALCULER QUE 
P(E). PAR EXEMPLE, SOIT Е L'ÉVÉNEMENT [PAS DE DOUBLE 1]. L'ÉVÉNEMENT NON Е, 
[RÉUSSIR UN DOUBLE 1], А UNE PROBABILITÉ DE P(NON Е) = 1/36. 


πι. αι -) RC: EL 
‚1 Bi. 7 ЕЯ. 7 HAL °) EB 7 HL 
> pp ፪፲.- Bi. Ка. 47.7 EAL ЕН 
8 E Bh: μι ; EXC ; HE. 
36 RI: B КЫС BH Bal) ЕН 
ЕН. ЕН ЛЕНЕ ДЕНЕН: ЕН 


AINSI 
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SERAIT-IL መመጣ LES FORMULES QUE NOUS AVONS 
gc PRÉSENTÉES SONT, EN FAIT, ADAPTEES 
DE RESOUDRE S [t POUR RÉSOUDRE LE PROBLÈME DE MERE. 
ክነት ከ MAIS CE NEST PAS SIMPLE! 
ፍ (ON POURRAIT ESSAYER DE КЕРОМОКЕ 
A UNE QUESTION PLUS FACILE : QUELLE EST 
LA PROBABILITE DE LANCER UN 6 SUR DEUX 
LANCERS DE DÉS? ) NOUS AVONS BESOIN 


«тъ OE PLUS D'OUTILS! 


NOUS INTRODUISONS DONC 
Les probabilités conditionnelles 
(UN CONCEPT ESSENTIEL EN STATISTIQUES ). 


WAOUH! 
ÇA A L'AIR 
D'ÊTRE 
DU LOURD! 


SUPPOSONS QUE NOUS MODIFIIONS NOTRE EXPÉRIENCE EN LANÇANT LE DE BLANC 
AVANT LE DÉ NOIR. QUELLE EST LA PROBABILITÉ DE L'ÉVÉNEMENT À, C'EST-À-DIRE 
QUE LA SOMME DES FACES SOIT 3 ? 


AVANT LE LANCEMENT SUPPOSONS MAINTENANT 
DES DÉS, CETTE QUE LE DÉ BLANC TOMBE 
PROBABILITÉ EST SUR LE 1 (ÉVÉNEMENT С). 
(А) = 2 QUELLE EST MAINTENANT 
P 36 P 
LA PROBABILITÉ DE Á ? 
Ss 
Ne 
vw. . „>>>... h à 
515. 


ON APPELLE CELA LA PROBABILITE 
CONDITIONNELLE QUE A AIT LIEU 
SOUS LA CONDITION QUE 
L'ÉVÉNEMENT C AIT DÉJÀ EU LIEU. 


ON L'ÉCRIT 
P(AIC) 
ET ON DIT «LA PROBABILITÉ DE А SACHANT С». 


AVANT DE JETER UN DE, L'ESPACE ÉCHANTILLON CONTIENT 36 ELEMENTS. MAIS UNE FOIS 
QUE L'ÉVÉNEMENT С A EU LIEU, LE RÉSULTAT APPARTIENDRA À L'ESPACE ÉCHANTILLON 
RÉDUIT VÉRIFIANT C. 


ασ ασια 
пий 


DANS L'ESPACE ECHANTILLON RÉDUIT DE SIX EVENEMENTS ELEMENTAIRES, SEUL UN 
RESULTAT (1,2) DONNE UNE SOMME A 3. AINSI LA PROBABILITE CONDITIONNELLE EST DE 1/6. 


EN GENERAL, 
POUR DETERMINER 
E. ла | LA PROBABILITE 
rien ፡ ra CONDITIONNELLE P(E|F), 
LE MONDE ÉVOLUE ? ON EXAMINE L'ÉVÉNEMENT 
Й Е ЕТ FEN TANT 


QUE PARTIE DE L'ESPACE 


ECHANTILLON REDUIT 
VERIFIANT Е. 
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NOUS ALLONS TRANSCRIRE —— 
CELA EN DÉFINITION αμα λα 
FORMELLE : LA PROBABILITE ᾿ 


1 
CONDITIONNELLE 


DE Е SACHANT F EST : AT 
_ Р(ЕЕТ Р) 


ГА FORMULE VÉRIFIE DEUX RESULTATS INTUITIFS : 


Ρ(ΕΙΕ) =] (е E A EU LIEU, ALORS E 


EST CERTAIN). 


LORSQUE E ET F SONT MUTUELLEMENT 
EXCLUSIFS 


Ρ(ΕΙΕ)Ξ 0 (si Fa eu ueu, А06 E 


EST IMPOSSIBLE). 


EN REARRANGEANT LES TERMES, NOUS OBTENONS UNE LOI MULTIPLICATIVE : 
P(E ЕТ Е) = Ρ(ΕΙΕ)Ρ(Ε) 


CE QUE NOUS AIMERIONS SIMPLIFIER EN UNE LOI MULTIPLICATIVE < SPÉCIALE > 
SOUS LA CONDITION QUE Ρ(ΕΙΕ) = P(E). CE SERAIT EXCELLENT! 


በ... 


ET AVANT QUE VOUS 

NE VOUS PRECIPITIEZ 
bo SUR LA PROCHAINE PAGE, NOTEZ 
QU'EN INTERVERTISSANT Е ET F 

NOUS OBTENONS QUE 


Р(Е)Р(ЕЕ) = P(E)P(F|E). 


an ΠΗ, d 
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L'INDÉPENDANCE et la loi 


multiplicative spéciale 


DEUX ÉVÉNEMENTS Е ET F SONT DITS INDEPENDANTS L'UN DE L'AUTRE 
SI L'OCCURRENCE DE L'UN ΝΑ AUCUNE INFLUENCE SUR L'OCCURRENCE 
DE L'AUTRE. PAR EXEMPLE, LE RÉSULTAT DU LANCER D'UN DE МА AUCUNE 
INCIDENCE SUR LE RÉSULTAT DE L'AUTRE DÉ (À MOINS QU'ILS 
NE SOIENT COLLÉS ENTRE EUX, OU MAGNÉTIQUEMENT 
RELIES, ЕТС.!). 


EN TERMES DE PROBABILITÉ CONDITIONNELLE, CELA IMPLIQUE QUE P(E) = P(EIF) 
OU DE FAÇON ÉQUIVALENTE P(F) = P(F| E). LORSQUE Е ET Е SONT INDÉPENDANTS, 
NOUS OBTENONS LA LOI MULTIPLICATIVE SPÉCIALE : 


P(E ЕТ Р) = P(E)P(F) 


VERIFIONS MAINTENANT L'INDEPENDANCE DES DES ЕМ UTILISANT LES FORMULES. 
С EST L'ÉVÉNEMENT [DÉ BLANC = 1] ET D EST L'ÉVÉNEMENT [DÉ NOIR = 1]. 
NOUS AVONS ALORS 


РАК CONTRE, SI LE DE BLANC VAUT І, CELA AFFECTE ÉVIDEMMENT LA PROBABILITÉ 
QUE LA SOMME DES DÉS DONNE 3! 


1 
Ρ(Αετο) P(2) 36 1 
PACE "ο τς 


CES DEUX EVENEMENTS А ЕТ С МЕ SONT DONC PAS INDEPENDANTS. 
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AVANT D'ALLER PLUS LOIN, VOICI LA LISTE DES LOIS QUE NOUS AVONS OBTENUES : 


LOI ADDITIVE : 


P(E oU Е) = P(E) + Ρ(Ε) - P(E ET Е) 


LOI SPÉCIALE D'ADDITION, $1 Е ET F SONT MUTUELLEMENT 
EXCLUSIFS : 


P(E ou F) = P(E) + P(F) 


LOI DE SOUSTRACTION : 


P(E)= 1 - P(NON Е) 


LOI MULTIPLICATIVE : 


P(E Er F)= Р(ЕЇР)Р(Р) 


LOI SPÉCIALE DE MULTIPLICATION, Si E ET Е SONT 
INDÉPENDANTS : 


P(EET F) = P(E)P(F) 


ET ENFIN LE PROBLÈME DE MERE... SOIT Е L'ÉVÉNEMENT [OBTENIR AU MOINS UN SIX 
SUR QUATRE LANCERS DE DÉS], QUE ναυτ P(E) ? IL S'AGIT D'UN ÉVÉNEMENT DONT 
L'ÉVÉNEMENT CONTRAIRE EST PLUS SIMPLE A CALCULER : NON Е EST L'ÉVÉNEMENT 
[N'OBTENIR AUCUN SIX SUR QUATRE LANCERS ]. 


SI A, EST L'ÉVÉNEMENT [NE PAS OBTENIR 
DE SIX AU ie LANCER], NOUS SAVONS 
QUE P(A,) = 5/6. NOUS SAVONS AUSSI 
QUE LES LANCERS SONT INDEPENDANTS. 
AINSI, 


PINON Е) = P(A ET A, eT A, ET A) 


LOI MULTIPLICATIVE : 
~’ ር (5) = 0,482 
DONC 
P(E) = 1 - P(NON E) = 0,518 


MAINTENANT LE SECOND PARI : SOIT F L'ÉVÉNEMENT [OBTENIR UN DOUBLE 6 
SUR 24 LANCERS DE DEUX DES]. A NOUVEAU, NON F EST PLUS SIMPLE 
À UTILISER CAR C'EST L'ÉVÉNEMENT [N'OBTENIR AUCUN DOUBLE SIX]. 


SI В EST L'ÉVÉNEMENT [FAS DE DOUBLE 
SIX AU i* LANCER] ALORS 


NON ΕΞ В т В, er... В, 


 —— 


BRAVO! 
JE PEUX MOURIR 
HEUREUX! 


LA PROBABILITÉ DE CHAQUE D, EST : 
==) 
P(B) (В , DONC 


P(NON F) = (б) = 0,504 


PAR LA REGLE DE MULTIPLICATION, 
ON CONCLUT QUE : 


መሚዶ = ] - P(NON Р) 
=1- 0,504 = 0,441 


MERE AVAIT DIT А PASCAL QU'IL AVAIT OBSERVE QUE L'ÉVÉNEMENT F SE PRODUISAIT 
MOINS SOUVENT QUE L'EVENEMENT E, MAIS IL RESTAIT PERPLEXE SUR L'EXPLICATION 
A DONNER... NOUS EN CONCLUONS QUE MERE DEVAIT SOUVENT FAIRE LE TEST 

ET EN CONSERVER SOIGNEUSEMENT LES RESULTATS. 


(^ 


ሸ 
QUELLES SONT 
MES CHANCES 
D'ENTRER ? 
, ቃ 
LU ` 


С? ን 
A 
a ТИ 

5 ^: 

o = o 

" 

ይ й ሥሲደ | 
ጦ گے‎ е: 5 MAINTENANT, QUITTONS 
=< С LE MONDE DU JEU 
C. К” s ሥ ' ЕТ REJOIGNONS 

Š LE MONDE REEL... 


LE THEOREME DE BAYES 
et le cas des faux positifs 


POUR UNE APPLICATION PLUS SERIEUSE 
DES PROBABILITES CONDITIONNELLES, EXAMINONS 
UN DOMAINE CONCERNANT UNE QUESTION DE VIE 


OU DE MORT. 


SUPPOSONS QU'UNE MALADIE MORTELLE INFECTE UN INDIVIDU SUR 1000 
DANS UNE POPULATION DONNEE... 


ET SUPPOSONS QU'IL EXISTE UN BON TEST, MAIS IMPARFAIT, POUR DECELER 

LA MALADIE : SI UNE PERSONNE EST INFECTEE, LE TEST EST POSITIF DANS 44 % 
DES CAS. PAR AILLEURS, LE TEST PRODUIT AUSSI DES FAUX POSITIFS : POUR 2 % 
DES PATIENTS SAINS LE TEST EST POSITIF. 51 VOTRE TEST EST POSITIF, QUELLE 
PROBABILITÉ AVEZ-VOUS D'ÉTRE EFFECTIVEMENT INFECTÉ ? 


EN BREF : DEVRAIS-JE 
PAYER D'AVANCE ? 
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NOUS AVONS DEUX EVENEMENTS А GERER : ГҮ 


ALLO? 
C'EST LE DOCTEUR 
SUSSAN... 
ΡΑΘΘΕΖ-ΜΟΙ 
ΜΟΝ AVOCAT... 


А: LE PATIENT A LA MALADIE 
ይ : LE PATIENT EST TESTÉ POSITIF 


L'INFORMATION SUR L'EFFICACITÉ 


DU TEST PEUT S'ECRIRE : 
P(A) = 0,001 UN PATIENT SUR 1000 A LA MALADIE. 
Ρ(ΒΙΑ) = 0,aa LA PROBABILITE D'UN TEST POSITIF, SACHANT QUE LE PATIENT 


EST MALADE, EST DE 0,44. 


P(BINON A) = 0,02 LA PROBABILITE D'UN FAUX POSITIF, SACHANT QUE LE PATIENT 
EST SAIN, EST DE 0,02. 


ET LA QUESTION EST : 


P(AIB) = Quoi? [ለ PROBABILITÉ D'AVOIR LA MALADIE, SACHANT QUE LE TEST 
EST POSITIF, EST INCONNUE. 


COMME LE TRAITEMENT DE LA MALADIE A DE GRAVES EFFETS SECONDAIRES, LE MEDECIN, 
SON AVOCAT ET L'AVOCAT DE SON AVOCAT FONT APPEL A JOE BAYES, CS (CONSULTANT 
STATISTICIEN) POUR OBTENIR UNE RÉPONSE. JOE UTILISE UN THEOREME PROUVÉ 

PAR SON ANCÊTRE, LE PASTEUR THOMAS BAYES (1701-1761). 


መ መም=። 

JE VOUS PRÉVIENS... 
IL VA FALLOIR UTILISER 
— GLOUSSEMENT — 
LES PROBABILITÉS 
CONDITIONNELLES... 
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JOE COMMENCE PAR FAIRE UNE MATRICE 2 x 2, QUI DIVISE L'ESPACE ÉCHANTILLON 
EN 4 CAS MUTUELLEMENT EXCLUSIFS. CHAQUE CAS EST UNE COMBINAISON 
ENTRE L'ETAT DU PATIENT ET LE RESULTAT DU TEST. 


NON A 


AETB NON A ET B 
А ET NON В NON АЕТ NON В 


INSCRIVONS LES PROBABILITES DE CHAQUE EVENEMENT DANS LA MATRICE : 


NON A SOMME 


P(AET В) Р(МОМ Ат В) Р(В) 
P(AET NON В) Р(МОМ А ET NON В) | Р(МОМ В) 


P(A) P(NON A) | + |] 


LES PROBABILITÉS EN FIN DE LIGNE ET DE COLONNE SONT OBTENUES ЕМ SOMMANT 
LES LIGNES ET COLONNES. 


MAINTENANT, CALCULONS : 


P(A ET В) = Р(ВІА) P(A) = (0,44)(0,001) = 0,00044 LP 


P(NON A Er B) = P(BINON A) P(NON A) = (0,02)(0,ааа) = 0,01448 


CELA NOUS PERMET DE COMPLÉTER LA MATRICE : 


A NON А SOMME 


0,00044 0,01448 0,02047 
P(AET NON В) Р(МОМА т NON В) | P(NON В) 


0,001 0,444 


NOUS POUVONS TROUVER LES PROBABILITES MANQUANTES РАК SOUSTRACTION 
DANS LES COLONNES PUIS, EN ADDITIONNANT DANS LES LIGNES. 
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LA MATRICE FINALE EST : 


A NON A SOMME 


0,00044 0,01448 0,02047 
0,00001 0,479402 0,47403 


= ΠΝ Ξ 0,02047 = 0,0472 


MALGRE L'APPARENTE FIABILITE DU TEST, MOINS DE 5 % DE CEUX QUI SONT TESTES 
POSITIFS SONT VERITABLEMENT ΜΑΙΑΡΕΘΙ ON APPELLE CELA LE PARADOXE DES FAUX 
POSITIFS. 


PARADOXE ЕТ PAIRE 
D'AVOCATS... 


CE TABLEAU EXPLIQUE 

LE PROBLEME AVEC 

1000 PATIENTS. EN MOYENNE, 
SEULEMENT 21 PERSONNES 
SERONT TESTEES POSITIVES 

— ET SEULEMENT UNE 
PERSONNE SERA EFFECTIVEMENT 
MALADE! IL Y AURA DONC 20 
FAUX POSITIFS, CELA PROVIENT 
DU FAIT QUE LE GROUPE 
SAIN EST DE LOIN 

LE PLUS IMPORTANT. 


BIEN PORTANTS TOTAL 


QUE ООП FAIRE LE MÉDECIN ? JOE BAYES LUI CONSEILLE DE NE PAS COMMENCER 

LE TRAITEMENT SUR LA SEULE BASE DU TEST. LE TEST RESTE INFORMATIF : AVEC UN RESULTAT 
POSITIF, LA PROBABILITE QUE LE PATIENT SOIT MALADE PASSE DE 1 POUR 1000 A 1 POUR 21, 
MAIS DANS CE CAS LE MEDECIN DEVRA FAIRE DE NOUVEAUX TESTS. 


ፍሪ 


JOE BAYES TOUCHE SON CHEQUE DE CONSULTANT AVANT D'ADMETTRE QUE TOUTE 
SON ETUDE POUVAIT SE RESUMER EN UNE SEULE FORMULE APPELEE THEOREME 
DE BAYES. 


P(A)P(BIA) 


(ΑΡ) = УР вра) + PINON A)P(BINON A) 


JE ME DEMANDE 

CE QUE MON ANCETRE 
AURAIT PENSE 

DE CES HONORAIRES... 


LA FORMULE EXPRIME P(A|B) A PARTIR DE P(A) ET DES DEUX PROBABILITÉS 
CONDITIONNELLES P(B|A) ET P(BINON А). ON LA DÉMONTRE FACILEMENT 
EN NOTANT QUE LA FRACTION DE DROITE PEUT S'EXPRIMER COMME : 


P(A er B) _ P(A er B) 


Р(А ετ ይ) + P((NON А) er B) Ple) ~ ዳላ) 
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DANS СЕ CHAPITRE, NOUS AVONS 

VU LES BASES DES PROBABILITES : 

LES DEFINITIONS, L'ESPACE ECHANTILLON 
ET LES EVENEMENTS ELEMENTAIRES, 

LES PROBABILITES CONDITIONNELLES 

ET CERTAINES FORMULES ESSENTIELLES 
POUR CALCULER LES PROBABILITES. 
NOUS AVONS ILLUSTRE CES IDEES AVEC 
L'EXEMPLE D'UN LANCER DE DEUX DÉS. 
POUR UN JOUEUR MODERNE, LES PROBABILITÉS 
SONT UN OUTIL DE CHOIX. 


ENFIN, AVEC L'EXEMPLE MÉDICAL, NOUS AVONS MONTRÉ COMMENT DES IDÉES 
ABSTRAITES POUVAIENT NOUS AIDER À PRENDRE DE BONNES DÉCISIONS 


DANS UN CONTEXTE D'INFORMATION IMPARFAITE ET DE RISQUES RÉELS 
— CE QUI EST LE BUT ULTIME DES STATISTIQUES. 


MAIS CE N'EST QU'UN DÉBUT. POUR NOUS, LES PROBABILITÉS CONSTITUENT 

UN OUTIL (SANS CONTESTE ESSENTIEL) DANS L'ÉTUDE DES STATISTIQUES. 

DANS LES CHAPITRES QUI SUIVENT, NOUS ALLONS EXPLORER LA RELATION SUBTILE 
ENTRE LES PROBABILITÉS, LES VARIATIONS DANS LES DONNÉES STATISTIQUES, 

ET NOTRE CONFIANCE DANS L'INTERPRÉTATION DE NOS OBSERVATIONS. 


Chapitre 4 


LES VARIABLES 
ALEATOIRES 


DANS LE CHAPITRE 2, NOUS AVONS VU QUE L'OBSERVATION DE DONNEES NUMÉRIQUES, 
COMME LE POIDS DES ETUDIANTS, PEUT ETRE REPRESENTEE GRAPHIQUEMENT OU RESUMEE 
EN TERMES DE TENDANCE CENTRALE, DE DISPERSION, DE VALEURS EXTREMES, ETC. 
DANS LE CHAPITRE 3, NOUS AVONS VU COMMENT DES PROBABILITES PEUVENT 
ETRE AFFECTEES A DES RESULTATS D'UNE EXPERIENCE ALEATOIRE. 


MAINTENANT, 
ON VA LES UTILISER 
ENSEMBLE! 


SI NOUS IMAGINONS UNE EXPERIENCE ALÉATOIRE RÉPÉTÉE DE NOMBREUSES FOIS, 

NOUS NOUS ATTENDONS A CE QUE LES FREQUENCES DES RESULTATS OBSERVES TENDENT 
VERS LEURS PROBABILITES A TERME. LES PROBABILITES CONSTITUENT UN MODELE 

POUR LES EXPÉRIENCES DE LA VIE REELLE... ALORS, POURQUOI NE PAS FAIRE L'ÉTUDE 

D'UN MODÈLE A PARTIR DE L'ANALYSE DES DONNEES DECRITES PAR СЕ MODÈLE ? 


LE CONCEPT ESSENTIEL EST CELUI DE VARIABLE ALEATOIRE, QUE NOUS ÉCRIVONS 
AVEC UN GRAND 


UNE VARIABLE ALEATOIRE EST DEFINIE COMME LE RESULTAT NUMERIQUE 
D'UNE EXPERIENCE ALEATOIRE. 


PAR EXEMPLE, IMAGINONS QU'ON SELECTIONNE UN ETUDIANT AU HASARD DE NOTRE GROUPE 
D'ÉTUDIANTS. IL S'AGIT BIEN D'UNE EXPERIENCE ALÉATOIRE. LA TAILLE, LE POIDS, 

LE REVENU FAMILIAL, LE RESULTAT AU BAC ET LA MOYENNE GENERALE 

DE L'ETUDIANT SONT DES VARIABLES NUMERIQUES DECRIVANT LES PROPRIETES 

DE L'ETUDIANT TIRE AU HASARD. CE SONT TOUTES DES VARIABLES ALEATOIRES. 


LE TRAVAIL 
DE L'ADMINISTRATION 
EST DE TRANSFORMER 
LES ETUDIANTS 
EN STATISTIQUES. 


UN AUTRE EXEMPLE : LANCER DEUX PIECES (L'EXPERIENCE ALEATOIRE) ET NOTER LE NOMBRE 
DE FACES : 0, 1 OU 2. 


0 2 


REA PP ρε FP FF 


ATTENTION POUR LA NOTATION, LA VARIABLE S'ECRIT AVEC UN X MAJUSCULE. 
LE % EN MINUSCULE REPRESENTE UNE VALEUR PARTICULIERE DE X, 
AINSI % = 2 VEUT DIRE QU'IL Y A EU DEUX FOIS FACE. 
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VOICI UN AUTRE EXEMPLE BASE 

SUR LE LANCER CLASSIQUE DE DEUX 
DES. SOIT Y LA SOMME DES POINTS 
VISIBLES SUR LES DEUX DES. 

POUR CETTE VARIABLE ALEATOIRE, 

Y EST UN NOMBRE COMPRIS 

ENTRE 2 ET 12. Y 


NOUS VOULONS MAINTENANT EXAMINER LES PROBABILITÉS DES RÉSULTATS. 

ON ÉCRIT P(X = κ), OU SIMPLEMENT Р(х), LA PROBABILITÉ QUE LA VARIABLE 
ALÉATOIRE X SOIT ÉGALE А х. POUR LE CAS DE LA VARIABLE ALÉATOIRE DU LANCER 
DE DEUX PIECES, NOUS AVONS LE TABLEAU SUIVANT : 


CE TABLEAU EST APPELÉ 

LA DISTRIBUTION 

DE PROBABILITÉS 

DE LA VARIABLE ALÉATOIRE X. 


POUR LA VARIABLE ALÉATOIRE Y (SOMME DU LANCER DE DEUX DES), LA DISTRIBUTION 
DE PROBABILITES RESSEMBLE A CECI : 


Ουερ! C'EST 
POUR CELA QUE 
J'AI ARRÊTÉ 
LES DÉS! 


X, 


DES. 


=. 


NS DE PROBABILITES. POUR CHAQUE VALEUR DE 
2፡7. 
ROBABILITES DE LA SOMME DE DEUX 


9 
š 
Š 
Φ 
да 
8 
су 
8 
፳ 
Е 
P τὴ 
T 
Ве 
[o] 
š 
2 


ПОМ ОЕ Р 


HISTOGRAMME DES PROBABILITÉS DE LA VARIABLE ALÉATOIRE Y : 


IL DÉCR 


IT LA DISTRIBU 


VOICI L' 


POURQUOI APPELLE-T-ON CES GRAPHIQUES DES HISTOGRAMMES ? VOUS VOUS 
RAPPELEZ QUE DANS LE CHAPITRE 2, UN HISTOGRAMME ÉTAIT UN GRAPHIQUE 
QUI REPRÉSENTAIT LE NOMBRE DE DONNÉES OBSERVÉES DANS CHACUNE DES CLASSES. 


150 
POIDS EN LIVRES 
À PARTIR DE CET HISTOGRAMME DES EFFECTIFS, ON А DÉFINI UN HISTOGRAMME 


DES FRÉQUENCES QUI REPRESENTE LA PROPORTION DE DONNEES OBSERVEES 
DANS CHAQUE CLASSE. 


MAIS, VOUS VOUS SOUVENEZ 
QUE PAR DÉFINITION 

UNE PROBABILITÉ REPRESENTE 

LA FRÉQUENCE D'UN ÉVÉNEMENT 
SUR LE < LONG TERME”. 

SI ПОМ REPETE L'EXPERIENCE 
ALÉATOIRE DE NOMBREUSES FOIS, 
L'HISTOGRAMME EN FRÉQUENCE 
DES RÉSULTATS OBSERVÉS : 
DOIT ETRE SEMBLABLE v< 


DONNEES PROBABILITES 
À L'HISTOGRAMME ule 
DES PROBABILITES 


DE LA VARIABLE ALÉATOIRE. 


СА 
" 


ILLUSTRONS CELA AVEC LA VARIABLE ALEATOIRE X | | LA LANCEUSE СОММЕМСЕ А LANCER DEUX 
ET UNE FURIEUSE LANCEUSE DE PIECES. PIECES DE FACON REPETITIVE, EN CONSERVANT 
LE RESULTAT CHAQUE FOIS. 


NOUS CONNAISSONS LA DISTRIBUTION DE PROBABILITES DE X ET NOUS SAVONS QUE LES RESULTATS 
DE L'EXPERIENCE REELLE CORRESPONDRONT APPROXIMATIVEMENT AUX PROBABILITES. 
APRES 1000 LANCERS, LA LANCEUSE FAIT LE POINT SUR SES DONNEES : 


MODÈLE DONNÉES OBSERVÉES 
DE PROBABILITÉS 
n, = NOMBRE 
P (x) x D'OCCURRENCES n,/n= FRÉQUENCE 
0,25 0 260 0,260 
0,5 I 517 0,517 
0,25 2 223 0,223 


ЕТ NOUS CONSTATONS QUE L'HISTOGRAMME DES PROBABILITES DE X CORRESPOND А UNE < FORME 
PURE> OU AU MODELE DE L'HISTOGRAMME EN FRÉQUENCE DES DONNEES OBSERVEES. 


POUR POURSUIVRE L'ANALOGIE ENTRE FRÉQUENCE ЕТ DONNÉES, NOUS ALLONS PARLER DE LA МОУЕММЕ 
ET DE LA VARIANCE (OU DE L'ÉCART-TYPE) D'UNE DISTRIBUTION DE PROBABILITÉS... 


J'AIME CES 


ABSTRACTIONS! ET AFIN DE NOUS RAPPELER 


QUE NOUS ΘΟΜΜΕΘ DANS LE DOMAINE 
DE L'ABSTRACTION, NOUS MOBILISONS 
DES LETTRES GRECQUES... 


MOYENNE et VARIANCE 
des VARIABLES ALEATOIRES 


ON UTILISE UNE TERMINOLOGIE 

ET DES SYMBOLES PARTICULIERS 

POUR DISTINGUER LES CARACTERISTIQUES 
DE DONNEES OBSERVEES DE CELLES 

DE PROBABILITES DE DISTRIBUTION. 


LES CARACTERISTIQUES NUMERIQUES DE DONNEES SONT APPELEES CARACTERISTIQUES 


DECHANTILLON, ALORS QUE LES CARACTERISTIQUES D'UNE PROBABILITE DE DISTRIBUTION 
SONT APPELEES CARACTERISTIQUES DU MODELE OU DE LA POPULATION. ON UTILISE 
DES LETTRES GRECQUES COMME μ. (MU) POUR LA MOYENNE DE POPULATION ET © (SIGMA 
MINUSCULE) POUR L'ÉCART-TYPE DE POPULATION (POUR UN ÉCHANTILLON DE DONNEES, 

ON UTILISE LES LETTRES ROMAINES Ж ET 5). 


sq 


ГА MOYENNE ECHANTILLON = BIEN! MAINTENANT, 
A ÉTÉ DÉFINIE PAR L'ÉQUATION TORTURONS-LA | 


CERTAINES DE CES DONNÉES OBSERVÉES κι PEUVENT AVOIR DES VALEURS 
EGALES. DANS L'EXEMPLE DE LA LANCEUSE DE PIECES, LES SEULES VALEURS 
POSSIBLES SONT 0, 1 OU 2 ET CELLE-CI A FAIT 1000 LANCERS. LA VALEUR 0 
EST APPARUE 260 FOIS, LA VALEUR 1 : 517 FOIS, ET LA VALEUR 2: 223 FOIS. 


—á 
LA VARIABLE % VA PRENDRE TOUTES 


LES VALEURS POSSIBLES, NOTONS n, CAR CHAQUE κ 
LE NOMBRE DE DONNÉES DONT LA VALEUR APPARAÎT п, FOIS... 
EST %. ON PEUT ALORS RÉÉCRIRE 

LA FORMULE : 


AH! MAIS n, /n CORRESPOND À LA FRÉQUENCE... C'EST-À-DIRE LA < PROBABILITÉ 
APPROXIMEE... > SOIT LE NOMBRE QUI TEND VERS p(x)... DONC PAR ANALOGIE 
NOUS OBTENONS LA FORMULE 


κρίκ) 


TOUT X 


ET DÉFINISSONS CELA COMME 
L'ESPÉRANCE (OU MOYENNE) 
DE LA DISTRIBUTION DE PROBABILITÉ. 
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Définition : LA тоуеппе p'uNE 
VARIABLE ALÉATOIRE X EST DÉFINIE PAR : 
ET C'EST 
LE CENTRE DE CET 
HISTOGRAMME ! 


p= > хр(х) 


ON L'APPELLE AUSSI ESPERANCE OU VALEUR ESPEREE pe X, ou Е X]. 
ON PEUT RETENIR QU'IL S'AGIT DE LA SOMME DE TOUTES LES VALEURS POSSIBLES 
PONDEREE PAR LES PROBABILITES. 


DANS L'EXPERIENCE DE LA LANCEUSE DE PIECES, ON PEUT COMPARER LA MOYENNE 
D'ÉCHANTILLON % AVEC LA MOYENNE DE POPULATION μ.: 


MAINTENANT, FAISONS LA MÊME CHOSE 
AVEC LA VARIANCE. PEUT-ÊTRE VOUS 
RAPPELEZ-VOUS LA FORMULE : 


n 
a 42 
“= መያ 0-9) 


CELA MESURE (PRESQUE) LA МОУЕММЕ 
DES CARRES DES ECARTS À LA MOYENNE. 
COMME PRECEDEMMENT, ON PEUT 

LA REECRIRE : 


ዎ= У бу-у 


TOUT x 


6l 


IL S'AGIT BIEN D'UNE SOMME РОМОЕКЕЕ D'ECARTS AU CARRE, MIS À PART CE П- 1 
AU DENOMINATEUR AU LIEU DE n... NOUS DEFINISSONS DONC : 


LA Variance D'UNE VARIABLE 

ALÉATOIRE X COMME LA VALEUR AVEZ-VOUS REMARQUÉ 
ESPEREE DES CARRES DES ECARTS QUE oF EST AUSSI 
À LA MOYENNE DE POPLLATION : E[(x - и) 1? 


L'écart-type σ EST LA RACINE 
CARREE DE LA VARIANCE. 


POUR TROUVER LA VARIANCE 

DU CAS DU LANCER DE 2 PIECES 

(POUR LEQUEL ይ = 1), x | рх) (κ-μγρίκ) 

ON UTILISE LE TABLEAU 

DE LA PAGE PRÉCÉDENTE. (o - 1 (0,25) = 0,25 


1 | 0,5 (-1(0,5) =0 


2 | 025 (2-1 (05) = 0,25 
0,50 = σ΄ 


EN RÉSUMÉ : µ ET Ог, LES MOYENNES ET ECARTS-TYPES DE POPULATION SONT 

DES CARACTÉRISTIQUES QUE L'ON CALCULE POUR DES DISTRIBUTIONS DE PROBABILITES. 
ELLES SONT ANALOGUES AUX MOYENNES % ET AUX ECARTS-TYPES S D'ÉCHANTILLON 

QUE L'ON CALCULE A PARTIR DE DONNEES D'ECHANTILLON. 
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JUSQU'A PRESENT NOS EXEMPLES 
DE VARIABLES ALÉATOIRES ÉTAIENT DISCRETS. 


LES RESULTATS ETAIENT DES VALEURS χά Он, он! 
ISOLÉES (ου < DISCRËTES>) COMME DANS р І Буне 


LE CHAPITRE 3, MAIS IL Y A AUSSI DES 
variables aléatoires continues. 


IMAGINONS UNE EXPERIENCE ALEATOIRE 

OU CHAQUE RESULTAT AIT UNE PROBABILITE 
DE ZÉRO. AUTREMENT DIT, p(x) = 0 POUR 
TOUT κ. 


12 


И m 
/ 


uti 
КД) 


ΚΑῚ 
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UN EXEMPLE SIMPLE EST CELUI D'UN POINTEUR SUR UNE ROUE (51 VOUS N'AVEZ PAS 
DE CHIEN DE CHASSE, UNE AIGUILLE FERA L'AFFAIRE). CE DERNIER PEUT S'ARRÊTER 
N'IMPORTE OU DANS LE CERCLE. SOIT X LA PROPORTION DE LA CIRCONFÉRENCE 
ATTEINTE PAR LE POINTEUR. LA VARIABLE ALÉATOIRE X PEUT PRENDRE N'IMPORTE 
QUELLE VALEUR ENTRE 0 ЕТІ, ET DONC UN ÉVENTAIL INFINI DE VALEURS. 


IL EST FACILE DE TROUVER 0 

LA PROBABILITÉ QUE X APPARTIENNE X 
À UN INTERVALLE DONNÉ : 

PAR EXEMPLE, P(0,25 X < 0,75) < 0,5 

CAR IL S'AGIT DE LA MOITIÉ DU CERCLE. 

MAIS QU'EN EST-IL DE P(X = 0,5)? 0,75 0,25 
COMME X PEUT PRENDRE UN NOMBRE 

ΙΝΕΙΝΙ DE VALEURS ET QUE CHAQUE VALEUR 

EST EQUIPROBABLE, LA PROBABILITE 

QUE X 501 EXACTEMENT 0,5 

(OU TOUTE AUTRE VALEUR) 

EST PRECISEMENT NULLE. 0,5 


COMMENT REPRESENTER CELA? 

PAR ANALOGIE AVEC LE CAS DES PROBABILITES 
DISCRETES, IL FAUT VOIR LES PROBABILITES 
CONTINUES COMME L'AIRE SITUEE SOUS 
QUELQUE CHOSE. DANS LE CAS DU POINTEUR 
DE LA ROUE, CE QUELQUE CHOSE RESSEMBLE 
À CECI : 


OUAF... POURQUOI 
NE SUIS-JE PAS UN 
CHIEN D'ARRÊT ? 


f(x) = 0 Sl x < 0 
fu) = 190 < x =<! 
f(x)2091x > 1 


LA PROBABILITE QUE LE POINTEUR 
FINISSE SA COURSE ENTRE a ET b 
EST PRECISEMENT L'AIRE SITUEE 
DANS LA PARTIE HACHUREE QUI 

SE TROUVE SOUS LA COURBE ENTRE 
a ET b. CETTE AIRE VAUT b - a. 


TOUTEFOIS, LA PROBABILITÉ 

QUE LE POINTEUR TOMBE 

SUR UNE VALEUR FIXE 

EST DE ZÉRO (NOTEZ AUSSI 
QUE L'AIRE TOTALE SOUS 

LA COURBE VAUT EXACTEMENT 1). 


LES NOMBRES ALEATOIRES GENERES PAR ORDINATEUR OU AVEC DES CALCULATRICES 
ONT LE MEME TYPE DE REPRESENTATION. IL SUFFIT DE PRESSER UN BOUTON, ET HOP! 
ON OBTIENT UN NOMBRE ENTRE 0 ЕТ І. CHAQUE NOMBRE EST ÉQUIPROBABLE 


COMME DANS LE CAS DU POINTEUR DE LA ROUE. 


MAIS MALHEUREUSEMENT, 

CES NOMBRES NE SONT 

PAS VRAIMENT ALÉATOIRES. 

ILS SONT PRODUITS PAR 

DES ALGORITHMES. ON PARLE 
PLUS PRÉCISÉMENT DE NOMBRES 
PSEUDO-ALEATOIRES. 


DANS CET EXEMPLE, LA COURBE y = f(x) 
EST APPELEE DENSITE DE PROBABILITE 
DE LA VARIABLE ALEATOIRE CONTINUE X. 
CHAQUE VARIABLE ALEATOIRE CONTINUE 

A SA PROPRE FONCTION DE DENSITE. 

LA PROBABILITE P(a < x < b) EST 
ALORS L'AIRE ENTRE L'AXE DES ABSCISSES 
ET LA COURBE POUR х. COMPRIS ENTRE 
a ET b. 


ЕМ GENERAL, LA FONCTION b 
DE DENSITE N'EST PAS 51 SIMPLE, 
ET LE CALCUL DE L'AIRE EST LOIN 
D'ÊTRE TRIVIAL. 


a b 


ON UTILISE UNE NOTATION MATHEMATIQUE 
POUR DECRIRE CETTE AIRE 5005 

LA FONCTION f(x). CE SYMBOLE SE LIT 
«L'INTÉGRALE DE f ENTRE a ET b». 


COMME POUR LES PROBABILITES 
DISCRETES, LES FONCTIONS 

DE DENSITES CONTINUES VERIFIENT 
DEUX PROPRIETES : 


f(x) 2 0 


[ f(x)dx =1 


-00 


(NE VOUS AFFOLEZ PAS DE LA PRESENCE 
DE L'INFINI. ON VEUT JUSTE DIRE 
QUE L'ON CHERCHE L'AIRE TOTALE 
SOUS LA COURBE D'UN BOUT A L'AUTRE.) 


lilii 
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ВЕМ QUE LA МОТАПОМ 

PUISSE SEMBLER [ ο. 
ETRANGE, ELLE SIGNIFIE 

SIMPLEMENT UNE AIRE... 

LE SIGNE D'INTEGRATION 

EST LUI-MEME UN 5 

ALLONGE SIGNIFIANT 

5 COMME SOMME. 


EN UTILISANT L'INTEGRALE À LA PLACE DE LA SOMME, ON DÉFINIT LA MOYENNE 
et la VARIANCE d'une variable aléatoire continue. 


00 


|: xf(x)dx PAR ANALOGIE M = > xp(x) 


AVEC LES 
FORMULES 
DISCRETES : 


σ = |: (x - ይያ f(x)dx 


BIEN QUE CELA NE SE VOIE PAS DIRECTEMENT DANS LES FORMULES, 

LES DEFINITIONS DE MOYENNE ET DE VARIANCE SONT TOTALEMENT COHERENTES 
AVEC L'INTERPRETATION DE TENDANCE CENTRALE ET DE DISPERSION MOYENNE 

DES PROBABILITES DÉFINIES PAR LA DENSITÉ f(x). LE GRAPHIQUE À AVOIR EN TÊTE 
EST LE SUIVANT : 
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SOMMATION . 
de variables aléatoires 


OH... ÇA A L'AIR 
RÉELLEMENT UTILE... 


UNE FOIS CONNUES LA MOYENNE 

ET LA VARIANCE D'UNE VARIABLE ALÉATOIRE, 

QUE PEUT-ON EN FAIRE ? TOUT D'ABORD, 

ON PEUT EN DÉDUIRE LA MOYENNE 

ET LA VARIANCE D'AUTRES VARIABLES ALEATOIRES. 


РАК EXEMPLE, REGARDONS LE LANCER D'UNE PIECE. POSONS X = 1 SI LA PIECE 
EST FACE ET 0 Sl ELLE EST PILE. 


RIEN DE NEUF 
POUR LE MOMENT... 


A PRESENT, VOUS DEVRIEZ POUVOIR 
CALCULER LA MOYENNE : 


45] = 0 x p(0) +I x p) 
= 0 + 0ይ 
= 0ይ 


ET ዚላ VARIANCE ፡ 


σ΄ = (o - 0,5} p(o) + (1-0,5Жр(1) 
< 0,25 


MAINTENANT JOUONS А UN JEU SIMPLE. D'ABORD VOUS MISEZ 6 € POUR JOUER. 
JE LANCE UNE PIÈCE, VOUS GAGNEZ 10 € SI C'EST FACE, ET RIEN SI C'EST PILE. 
AINSI, VOS GAINS G SONT : 


G=n0X-6 


C'EST UNE NOUVELLE VARIABLE 
ALÉATOIRE ! QUELLES SONT 
SA MOYENNE ET SA VARIANCE ? 
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UN PEU DE REFLEXION DEVRAIT VOUS 
CONVAINCRE QUE Ε[Ο] VERIFIE : 


E[G] = E[toX - ο] 
= 10E[X] - ó 


DONC, VOTRE 
< GAIN» ESPÉRÉ 
EST UNE PERTE! 


CE QUI REVIENT А: 
10(0,5) - 6 = -1 


CE QUE L'ON PEUT VERIFIER 
AVEC LE TABLEAU : 


DE FACON GENERALE, IL EST FACILE 
DE MONTRER QUE : 


ЕГаХ + b] = aE[X] + b 


POUR TOUT NOMBRE a ET b ET X, 
UNE VARIABLE ALEATOIRE. 


POUR LA VARIANCE NOUS AVONS AUSSI «-ᾱσ--» 
LE RÉSULTAT GÉNÉRAL SUIVANT : መም | И 
—XÀ—!——————— —————— 


o" (aX + b) = а20(Х) 


DANS LE JEU PRÉCÉDENT, LES RÉSULTATS 
POSSIBLES SONT - 6 ET 4, IL EST DONC 
EVIDENT QUE LA VARIANCE DE G EST PLUS 
IMPORTANTE QUE CELLE DE X. EN EFFET 


o*(G) = o*(toX + ὁ) 
= 10002(Х) 


ON PEUT AUSSI AJOUTER DEUX VARIABLES ALEATOIRES. РАК EXEMPLE, SUPPOSONS 
QUE L'ON LANCE DEUX FOIS UNE PIËCE. LE NOMBRE DE FACES SUR LES DEUX LANCERS 
EST X + X,, OÙ X, ET X, SONT LES VARIABLES ALÉATOIRES DU PREMIER ET DU SECOND LANCER. 


O 2 


А NOUVEAU, IL EST FACILE | ( 
DE VOIR QUE : | 


E[X + X,] = EX] + E[X,] 


(NE DEMANDEZ PAS QUELLE EST LA DISTRIBUTION DE PROBABILITÉ DE X + X,, 
CAR LE LIEN AVEC LES DISTRIBUTIONS ORIGINALES DE X, ET X, EST COMPLIQUÉ. 
PAR EXEMPLE, SI X, ET X, SONT DEUX LANCERS DE POINTEURS SUR ИМЕ ROUE, 
LA DENSITÉ DE PROBABILITÉ RESSEMBLE À CECI :) 
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LA VARIANCE DE LA SOMME DE DEUX VARIABLES ALEATOIRES A UNE FORME SIMPLE LORSQUE 
LES VARIABLES X ET Y SONT INDEPENDANTES. LA DEFINITION TECHNIQUE DE L'INDÉPENDANCE 
EST BASÉE SUR LA PROPRIÉTÉ QUE P(A ET ይ) = P(A)P(B)... MAIS, POUR NOUS, 
L'INDÉPENDANCE SIGNIFIE QUE X ЕТ Y SONT GENERES PAR DES PROCESSUS INDEPENDANTS, 
COMME LE LANCER DE PIECES OU DE DES, ETC. 


EN DEHORS DU CASINO, 
IL EST DIFFICILE DE TROUVER 

UNE INDEPENDANCE 
PARFAITE... 


LORSQUE X ET Y SONT 
INDEPENDANTS, LEURS 
VARIANCES S'ADDITIONNENT ፡ MAIS DANS 


LE MONDE IDEAL 
DES STATISTIQUES, 


σ΄(Χ + Y) = о<Х) + o*(Y) 


DANS LE CAS DU LANCER DE DEUX PIECES : 


o*(X, + Х,) = о:(Х) + о:(Х,) 
= 0,25 + 0,25 
= 0,50 


Ε[Σ, x] = $e 


ET LORSQUE LES X, ΘΟΝΤ DES VARIABLES 
ALEATOIRES INDEPENDANTES, 


(Ух) : УФ) 


CES FORMULES SONT AU CCEUR 

DE LA THEORIE DE L'ECHANTILLONNAGE 

ET DES STATISTIQUES. BEAUCOUP 

DE CARACTERISTIQUES DES DONNEES, 
COMME LA MOYENNE D'ECHANTILLON, 
SONT DES COMBINAISONS LINEAIRES 

DES DONNEES (C'EST-A-DIRE 

DES SOMMES DU ТҮРЕ aX + bY + οἆ...). 


LE MONDE EST LA SOMME 
DE SES PARTIES! 


DANS LE PROCHAIN CHAPITRE, NOUS ALLONS VOIR DEUX EXEMPLES IMPORTANTS 

DE VARIABLES ALEATOIRES : LE PREMIER, LA LOI BINOMIALE, EST UNE SOMME 
REPETEE DE VARIABLES ALEATOIRES INDEPENDANTES. LE SECOND, LA LOI NORMALE, 
EST UNE VARIABLE ALEATOIRE CONTINUE QUI A UN LIEN SURPRENANT AVEC LA LOI 
BINOMIALE ET AUSSI AVEC D'AUTRES SOMMES DE VARIABLES INDEPENDANTES. 


RETENEZ BIEN : EXPERIENCE ALEATOIRE 
ET RÉSULTAT NUMÉRIQUE ! 


HUM! CELA ME FAIT 
PENSER À MON DERNIER 
BULLETIN DE SALAIRE... 
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Chapitre 5 
Une histoire де deux 
distributions 


NOUS ALLONS MAINTENANT EXAMINER DEUX EXEMPLES DE VARIABLES 
ALÉATOIRES, DONT L'UNE EST DISCRËTE ET L'AUTRE CONTINUE. 
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NOUS ALLONS COMMENCER РАК LA DISTRIBUTION DISCRETE APPELÉE VARIABLE 
ALEATOIRE BINOMIALE (OU LOI BINOMIALE). SUPPOSONS QUE NOUS ΑΥΟΝΘ 

UN PROCESSUS ALEATOIRE AVEC SEULEMENT DEUX RESULTATS : UN LANCER DE PIECE, 
UN MATCH SPORTIF, UN CONTRÔLE DE POLLUTION D'AUTOMOBILE. DE FAÇON ARBITRAIRE, 
L'UN DES RÉSULTATS EST APPELÉ SUCCÈS ET L'AUTRE ÉCHEC. 


— — FP ss. 
FÉLICITATIONS POUR CE SUCCÈS | 


VOTRE VOITURE А ÉCHOUÉ 
AU CONTRÔLE DE POLLUTION ! 


C'EST CE PROCESSUS ALÉATOIRE AUSSI APPELÉ ÉPREUVE DE BERNOULLI 
QUE NOUS ALLONS RÉPÉTER. L'EXPÉRIENCE QUI CONSISTE À REPETER 
LES ÉPREUVES EST APPELÉE 


uN schéma de Bernoulli, 
SI ELLE VERIFIE LES PROPRIÉTÉS 
SUIVANTES : 


1) LE RÉSULTAT DE CHAQUE ÉPREUVE 
EST SOIT UN SUCCÈS, 
SOIT UN ÉCHEC. 


JACQUES 
BERNOULLI, 

QUE FAITES-VOUS 
Ici? 


2) LA PROBABILITE p DE SUCCES 
EST LA MÉME POUR CHAQUE 
ÉPREUVE. 


8) LES ÉPREUVES SONT 
INDÉPENDANTES : LE RÉSULTAT 
D'UNE ÉPREUVE N'A AUCUNE 
INFLUENCE SUR LES AUTRES 
ÉPREUVES. 
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А PARTIR D'UNE EPREUVE DE BERNOULLI AYANT UN SUCCES AVEC PROBABILITE ይ ON PEUT 
CONSTRUIRE UNE NOUVELLE VARIABLE ALÉATOIRE EN RÉPÉTANT LES ÉPREUVES. 


La Variable 

al éatoi re COMBIEN DE FOIS 
. . +: 

binomiale X va RÉUSSIR 

EST LE NOMBRE DE POLLUTION ? 

DE SUCCES DANS 

UN SCHEMA REPETE 


DE BERNOULLI A п ETAPES, 
OÜ р EST LA PROBABILITE 
DE SUCCES. 


LE NOMBRE DE FACES (SUCCES) SUR DEUX LANCERS DE PIECE FOURNIT 
UN EXEMPLE DE VARIABLE ALEATOIRE BINOMIALE. ICI n = 2 et p = 0,5. 


k = NOMBRE 
DE SUCCES 


0,25 0,5 0,25 


LE PREMIER PARI DE MERE FOURNIT UN AUTRE EXEMPLE. ON LANCE UN DE 
4 FOIS DE SUITE. UN SUCCES CORRESPOND A FAIRE UN 6. 
LA DISTRIBUTION EST... 


Pd 
HUM... 

LA DISTRIBUTION EST... 
C'EST... ? 


QUELLE EST LA PROBABILITÉ 
DE FAIRE Kk 6 EN 4 LANCERS ? 
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DE FACON GENERALE, QUELLE 

EST LA DISTRIBUTION 

DE PROBABILITES D'UNE VARIABLE 
ALEATOIRE BINOMIALE X 

DE PROBABILITE p QUELCONQUE 
ET AVEC n ÉTAPES ? UN CALCUL 
DE PROBABILITÉ FOURNIT 

LA RÉPONSE. LA PROBABILITÉ 
D'OBTENIR k SUCCES PARMI n 
ESSAIS, P(X = k), EST : 


C'EST L'HEURE 
DE VOTRE THÉRAPIE 
MATHÉMATIQUE ! 


P(X = k) = (п) pa -pr-* 


ІСІ LE SYMBOLE () SE LIT < COMBINAISON DE К PARMI П». IL EST AUSSI APPELÉ 
COEFFICIENT BINOMIAL. EN FRANCE, ON LE NOTE SOUVENT CX. IL CALCULE 
TOUTES LES DIFFÉRENTES FAÇONS D'OBTENIR k SUCCES SUR n ESSAIS. CHAQUE 
SEQUENCE AVEC k SUCCÈS ET п - k ÉCHECS А UNE PROBABILITÉ DE p*(1 - p)" ` * 


PAR LA LOI MULTIPLICATIVE. IL Y A [] = СК DE CES SEQUENCES. 


LA FORMULE POUR LES COMBINAISONS EST : 


ой 
n! =1 x2 x3 x... x (0-1) х (п) 


4 
ET PAR CONVENTION 0! = 1. PAR EXEMPLE, ( 2] 
EST LE NOMBRE DE FAÇONS DE CHOISIR A P A C A р 


2 LETTRES PARMI UN ENSEMBLE DE 4. 


መሆ 4! _ 24 _ BC BV CVD 
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ON PEUT AUSSI UTILISER LE TRIANGLE DE FASCAL POUR TROUVER LES COEFFICIENTS 
BINOMIAUX. CHAQUE ELEMENT EST LA SOMME DES DEUX NOMBRES AU-DESSUS DE LUI. 


(3) 


10 
20 
7 21 35 3 A 7 
28 56 70 56 29 
36 84 126 126 ΘΑ ንሪ 
45 120 210 252 210 120< 45 
11 55 165 330 462 462 330 165 55 
1 11 6 220 495 792 924 792 495 220 66 


ETC. 


n 
POUR TROUVER (0) ALLEZ A LA LIGNE П ЕТ PRENEZ LA К VALEUR HORIZONTALEMENT 
(COMMENCEZ LE COMPTE TOUJOURS PAR ZERO). 


AVEC p = 0,5, LA DISTRIBUTION DE PROBABILITES BINOMIALE EST PARFAITEMENT 
SYMETRIQUE. AINSI, AVEC n, PAR EXEMPLE, ON OBTIENT : 


k= NOMBRE ϱ I 2 8 4 5 ó 
DE FACES 
9 Ч У e Ë] e(t) [ት 
= ay ቴዴ] #4 1 is κ: L 
х=) [ οἱ) € 22 κ 42 (z 
D'OÙ CET 
HISTOGRAMME : 


POUR LE LANCER DES 4 DES DE MERE, LA DISTRIBUTION EST PLUS DESEQUILIBREE. 


625/1246 


500/1246 


150/1246 


20/1246 
1/1246 


NOMBRE 
DE SIX 


LA MOYENNE ET LA VARIANCE 
DE LA LOI BINOMIALE SONT : 


и = пр 
o* = пр! - p) 


NOTEZ QUE LA MOYENNE EST INTUITIVE : 


ON NE VA PAS VOUS 
ENNUYER AVEC 
LES DERIVATIONS... 


AVEC п EPREUVES DE BERNOULLI, 
LE NOMBRE ESPERE DE SUCCES 
SERA пр. LA VARIANCE РКОИЕМТ 
DU FAIT QU'UN SCHEMA BINOMIAL 
EST LA SOMME DE П ÉPREUVES 
DE BERNOULLI INDEPENDANTES 
DE VARIANCE ρίι - p). 


LES PARAMETRES D'UNE DISTRIBUTION ΒΙΝΟΜΙΑΙΕ SONT П ЕТ Р. 
LA DISTRIBUTION, LA МОУЕММЕ ЕТ LA VARIANCE МЕ ОЕРЕМОЕМТ 
QUE DE CES DEUX NOMBRES. ON TROUVE LES TABLES DE LOI BINOMIALE 
DANS DES MANUELS ET DES PROGRAMMES INFORMATIQUES. VOICI LA TABLE 
POUR n = 10. 

VALEUR DE P(X = k) 


0 l 2 8 4 5 6 7 8 4 10 
01 0,344 0,387 0,144 0,057 0,0П 0,001 0,000 0,000 0,000 0,000 0,000 
0,25 0,056 0188 0,282 0,250 0,146 0,058 0,016 0,003 0,000 0,000 0,000 
0,5 0,01 0,010 0,044 017 0,205 0,246 0,205 0,117 0,044 0,010 0,001 
0,75 0,000 0,000 0,000 0,003 0,016 0,058 0,146 0,250 0,282 088 0,056 
0,4 0,000 0,000 0,000 0,000 0,000 0,001 00 0,057 0,144 0,387 0,344 
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IL NOUS FAUT ET DU PAPIER 
MAIS FAIRE LE CALCUL š OS, PLUS LARGE... 
N> 


POUR DE GRANDES VALEURS 
DE n S'AVERE TRES DÉLICAT... 
DU MOINS AU XVIII? SIÈCLE, 
LORSQUE JACQUES BERNOULLI 


(1654-1705) ET ABRAHAM 
DE MOIVRE (1667-1754) 
ESSAYAIENT DE LE FAIRE 
SANS ORDINATEUR. 


MOIVRE DÉPLOYA UNE NOUVELLE 
ARME DE CALCUL ET MONTRA 
QUE, LORSQUE p = +, 
LA DISTRIBUTION BINOMIALE 
POUVAIT ÊTRE APPROXIMÉE 
PAR UNE FONCTION DE DENSITE 
CONTINUE, TRÈS SIMPLE 
À DÉCRIRE. 


POUR VOIR COMMENT CELA FONCTIONNE, IMAGINEZ LA DISTRIBUTION BINOMIALE 
AVEC p = 0,5 ET n TRÈS GRAND - DISONS 1 MILLION... 


0,001 


HUM... QUEL OBJET 
VASTE ET BAS 
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MAINTENANT, DIT MOIVRE, FAITES GLISSER ECRASEZ LA COURBE LE LONG DE L'AXE 

LE GRAPHE AFIN QUE SA MOYENNE SOIT ZÉRO. DES ABSCISSES AFIN QUE L'ÉCART-TYPE SOIT 1 
TOUT EN L'ÉTIRANT SUR L'AXE DES ORDONNÉES 
POUR QUE L'AIRE SOIT ÉGALE À 1. 


LE RÉSULTAT RESSEMBLE À UNE COURBE LISSE, SYMÉTRIQUE EN FORME DE CLOCHE, 
DONT MOIVRE DONNA L'ÉQUATION SIMPLE : 


f(z) = 1-е хі normale 
= APPELÉE LA 
3 γΖπ standard. 


(е EST UNE CONSTANTE MATHÉMATIQUE UTILE 


UN OBJET QUI VAUT APPROXIMATIVEMENT 2,718 ). 
EY MAGNIFIQUE! 


POUR VÉRIFIER QUE LA COURBE EST BIEN EN FORME DE CLOCHE, NOTEZ QUE LOIN DE ZÉRO f(z) 
EST QUASIMENT NULLE, PAR EXEMPLE f(-5) = f(5) = 0,0000044. LA COURBE 
EST SYMÉTRIQUE, CAR f(z) = f(-z). SON MAXIMUM EST ATTEINT EN ZÉRO 


00 Ко) = = = 0,34894. 


LA DISTRIBUTION EST APPELÉE LOI NORMALE ш = 0 
STANDARD CAR LES DÉFORMATIONS ЕТАЕМТ 

ORGANISEES POUR VERIFIER DES PROPRIETES 1 
SIMPLES, QUE NOUS PRÉSENTONS SANS PREUVE : σ 


80 


በመ 
POUR RESUMER MOIVRE, C'ÉTAIT LE BOULOT 

51 ON « NORMALISE» МММ-МА IL FAUT ее Е, 

LA DISTRIBUTION BINOMIALE AVEC LE D-D-D DÉMONTRER ? 

P = 1/2 (AUTREMENT DIT, ON CENTRE \ 


EN ZERO ET ON FAIT EN SORTE ዐ4 РА 


e 


QUE L'ÉCART-TYPE = 1), Ç ሪ 
ALORS ON OBTIENT PRESQUE час 8 € ወ 


LA DISTRIBUTION NORMALE 
STANDARD. 


ON ρευτ OBTENIR D'AUTRES LOIS NORMALES AVEC DES MOYENNES ET DES VARIANCES 
DIFFERENTES EN ETIRANT ET TRANSLATANT LA LOI NORMALE STANDARD. EN GENERAL, 

LA FORMULE SUIVANTE NOUS DONNE UNE DISTRIBUTION SYMÉTRIQUE, EN FORME DE CLOCHE 
CENTRÉE SUR LA MOYENNE р ET D'ÉCART-TYPE O ፡ 


{(κμ.σ) = E =”) 


VOICI DEUX DISTRIBUTIONS NORMALES DIFFÉRENTES, LES PARTIES GRISÉES REPRÉSENTENT 

LA RÉGION SITUÉE À MOINS D'UN ÉCART-TYPE DE LA MOYENNE. LEURS AIRES SONT ÉGALES. 

AINSI, POUR TOUTE VARIABLE ALÉATOIRE NORMALE, LA PROBABILITÉ D'ÊTRE À MOINS 

D'UN ÉCART-TYPE DE LA MOYENNE EST TOUJOURS LA MÊME, À SAVOIR À PEU PRÈS 0,68. 


F(IX - ul < о) = 0,68 


CELA EXPLIQUE LA REGLE EMPIRIQUE 


Е, (ወ, FAIBLE) 
QUE NOUS AVONS VUE PAGE 25. 22 
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MOIVRE PROUVA QUE LA LOI NORMALE STANDARD AVAIT LA FORME DE ГА LOI BINOMIALE 
(NORMALISÉE) POUR p = 1/2. MAIS EN FAIT, CELA FONCTIONNE POUR TOUTE VALEUR DE p. 


DE FAÇON GÉNÉRALE : QUEL 
QUE SOIT р, LA DISTRIBUTION 
BINOMIALE AVEC П ESSAIS 


TOUTES LES BINOMIALES 


DE PROBABILITÉ [2 EST APPROXIMÉE SE RÉVÈLENT 
PAR UNE LOI NORMALE AVEC NORMALES 
u = πρ FINALEMENT... 
ETO = V np - p 


UNE CLOCHE PEUT 
APPROXIMER CECI ? C'EST ЕМ FAIT UN PEU 


BIZARRE. LES LOIS NORMALES 
SONT SYMÉTRIQUES 

ET EN FORME DE CLOCHE... 
MAIS COMME NOUS L'AVONS 


VU, LES LOIS BINOMIALES 
NE SONT PAS 
SYMETRIQUES 

SI p * 1/2. 


MALGRÉ CELA, IL SE TROUVE QUE LORSQUE П AUGMENTE, L'ASYMÉTRIE DE LA LOI 
BINOMIALE EST CONTRARIÉE. COMME VOUS POUVEZ LE VOIR DANS CET EXEMPLE : 


“2 0 -2 0 5 10 


BINOMIALE : П = 2 ET p = 0,8 BINOMIALE : П = 20 ET p = 0,3 


82 


ЕМ FAIT, LA DÉCOUVERTE FAITE PAR MOIVRE SUR LA LOI BINOMIALE EST 

UN CAS PARTICULIER D'UN RESULTAT ENCORE PLUS GENERAL QUI AIDE A MIEUX 
COMPRENDRE POURQUOI LA LOI NORMALE EST À LA FOIS SI IMPORTANTE 

ЕТ 51 RÉPANDUE DANS LA NATURE. 


MON DIEU! 
CELA INCLUT TOUS LES CAS! 


«Le théorème 
central limite»: 


DES DONNEES QUI DEPENDENT 

DE NOMBREUX PETITS EFFETS 
ALEATOIRES NON CORRELES 
SONT APPROXIMATIVEMENT 
DISTRIBUEES NORMALEMENT. 


CELA EXPLIQUE QUE LA LOI NORMALE SE RETROUVE PARTOUT : 

DANS LES FLUCTUATIONS DES MARCHES FINANCIERS, LE POIDS DES ETUDIANTS, 

LES MOYENNES ANNUELLES DE TEMPERATURE, LES RESULTATS DU BAC : TOUTES 

CES QUANTITES SONT LE RESULTAT D'EFFETS NOMBREUX ET DIFFERENTS. PAR EXEMPLE, 
LE POIDS D'UN ETUDIANT EST LE RESULTAT DE SES GENES, DE SON ALIMENTATION, 

DE SES MALADIES ET DE SON PASSAGE AU PUB LA VEILLE. QUAND ON AJOUTE TOUS 
CES EFFETS, ON TROUVE UNE LOI NORMALE! (RAPPELEZ-VOUS QUE LA LOI BINOMIALE 
EST LE RÉSULTAT DE п ÉPREUVES INDÉPENDANTES DE BERNOULLI.) 


| BEURK ! 
TU VEUX DIRE Р | Ц ПА PROCHAINE FOIS RAPPELLE-MOI 
QUE C'EST NORMAL f D'ARRÊTER À П — | BIÈRES... 


| Ще, u | 


WA i A i 
s 
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C'EST ENCORE 
UNE OPERATION 
DE GLISSEMENT 

ET D'ETIREMENT... 


PERMET DE TRANSFORMER 
UNE LOI NORMALE DE MOYENNE u 


ET D'ÉCART-TYPE σ EN UNE LOI 
NORMALE СЕМТКЕЕ RÉDUITE, 
DE MOYENNE 0 ET ОЕСАКТ-ТУРЕ 1. 


AINSI, POUR TROUVER LA PROBABILITÉ DE N'IMPORTE QUELLE LOI NORMALE, IL SUFFIT 
DE CONNAÎTRE LA TABLE DE LA LOI NORMALE STANDARD f(z). 


Ici Ка) = ΡΖ = a), SOIT L'AIRE COMPRISE ENTRE LA FONCTION 
DE DENSITÉ ET L'AXE DES ABSCISSES ET A GAUCHE DE Z = a. 


F(a) 


ON PEUT AUSSI TRACER 
LA DISTRIBUTION CUMULATIVE 
y = F(Z) aui RESSEMBLE A CECI : 
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LA TABLE DE LOI NOUS РЕКМЕТ DE CALCULER AINSI, PAR EXEMPLE : 

LA PROBABILITE QUE Z SOIT DANS L'INTERVALLE Р(-1<2<1) = F(1) - А-1) 
a - z = БИ S'AGIT DE LA DIFFÉRENCE D'AIRES = 0,8413 - 0587 
ENTRE F(b) ET F(a). 


= 0,6826 


Ф, 4 
K ዕቃ 
- ድሂን 00 X <O 


P(z> 2) =1- F(2) 


= | - 0,4772 


ds TROUER PAR EXEMPLE, SUPPOSONS QUE LE POIDS DES ÉTUDIANTS 
SOIT DISTRIBUÉ NORMALEMENT DE MOYENNE μ. = 150 

LES PROBABILITES DE NIMPORTE | ET yÉCART-TYPE с = 20. 

QUELLE DISTRIBUTION NORMALE 

EN FAISANT LA TRANSFORMATION 

z = (x — µ)/σ. 


' 
жо HET», 


ALORS QUELLE EST LA PROBABILITE DE PESER 
PLUS DE 170 LIVRES ? 


MAINTENANT, C'EST < SIMPLEMENT >» IL S'AGIT DE 1 - F(1) . EN LISANT LA TABLE 
DE L'ALGÈBRE. ON OBTIENT І - 0,8413 = 0587: 


P(X > 170) 


AIRE = 0,1587 
= p(X - Ш _ 170 - 150 
σ 20 


=F (z 530) 150 [70 


ΞΕ (Ζ > 1) UN PEU MOINS D'UN ETUDIANT SUR SIX FAIT PENCHER 
LA BALANCE AU-DESSUS DE 170 LIVRES (SOIT 77 kg). 


LA RÈGLE GÉNÉRALE POUR CALCULER DES PROBABILITÉS NORMALES EST DONC : 


Р(а = Х= Б) = FE) - ሯ2።) 
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MAINTENANT REVENONS 

A L'APPROXIMATION BINOMIALE 
DE MOIVRE. REGARDONS 

LA DISTRIBUTION BINOMIALE 
AVEC p = + ET п = 25 (DISONS 
25 TIRAGES DE PIECES). 

ON PEUT CALCULER (OU LIRE 
DANS UNE TABLE) N'IMPORTE 
QUELLE PROBABILITÉ. 

PAR EXEMPLE P(X < 14) 

EST EXACTEMENT ÉGAL À 0,7878. 


AIRE GRISÉE = 0,7878 [Î 


CALCULONS MAINTENANT UNE VARIABLE ALEATOIRE NORMALE X* AVEC LA MÊME MOYENNE 
ш = np = (25)(0,5) = 12,5 ET UN ECART-TYPE 0 = Vnp(i - p) = 2,5. 


14 -12 
В = 0,7257 P(X* < 14) = )م‎ > 525) 


= P(Z< 0,6) 


= 0,7257 


AH, MAIS ON PEUT FAIRE MIEUX ! 
0,7257 POUR 0,7878 7 SI ON REGARDE ATTENTIVEMENT 
C'EST QUEL GENRE HUM... 
D'APPROXIMATION, СА? UNE APPROXIMATION LE PREMIER HISTOGRAMME, 
APPROXIMÉE ? ON VOIT QUE LES BARRES SONT 
CENTRÉES SUR LES ENTIERS. 
CELA VEUT DIRE QUE P(X* < 14) 
EST EN FAIT L'AIRE SITUÉE SOUS 
LES BARRES EN DESSOUS 
DE % = 14,5. NOUS DEVONS 
DONC INCLURE CE 0,5. AINSI, 


С? 


{, 
= 
= 


ነነ 
1} 


Р(Х* = 14,5) = P(z = 0,8) 
= 0,7881 


| 


ሻ] 


| 
\ 


፡ 


UNE TRES BONNE APPROXIMATION 
DE 0,7878, EN EFFET! 
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СЕ 0,5 SUPPLÉMENTAIRE 
S'APPELLE LA Correction 
de continuité. 

NOUS DEVONS L'INCLURE 
POUR OBTENIR UNE BONNE 
APPROXIMATION CONTINUE 
DE NOTRE LOI BINOMIALE 
DISCRETE X. CELA SE RESUME 
AVEC UNE EQUATION 

UN PEU HORRIBLE 

MAIS SIMPLE D'UTILISATION. 


1 
Pla<X<b)~ PES 


QUAND CETTE APPROXIMATION EST-ELLE < SUFFISAMMENT BONNE > ? POUR LES STATISTICIEN: 
LA RÈGLE EMPIRIQUE VEUT QUE п SOIT SUFFISAMMENT GRAND POUR QUE LES NOMBRES 
ESPÉRÉS DES SUCCÈS ET DES ÉCHECS SOIENT TOUS DEUX SUPÉRIEURS À 5 : 


пр 2 5 ЕТ п(1-р) 2 5 


LES HISTOGRAMMES SUIVANTS ILLUSTRENT QUE, LORSQUE р = 0,1, L'APPROXIMATION 
EST MEDIOCRE (VOIRE PIRE) JUSQU'À CE QUE n ATTEIGNE 50, POUR LEQUEL np = 5. 


LAA 


n = 2, p = 0J 20, род паво, p= 04 
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POURQUOI L'APPROXIMATION BINOMIALE EST-ELLE 51 IMPORTANTE ? EN FAIT 
LA DISTRIBUTION BINOMIALE APPARAÎT SOUVENT DANS LA NATURE, CE QUI N'EST PAS 
SI COMPLIQUÉ À COMPRENDRE. MAIS ELLE PEUT ÊTRE FASTIDIEUSE À CALCULER. 


~ — — 


IL Y EN A UNE NOUVELLE 
POUR CHAQUE VALEUR 
DE n ET DE P... 


rm d 


Cae: 


ШЇ 


ГА LOI NORMALE QUI ГАРРКОХМЕ EST PEUT-ETRE MOINS INTUITIVE, MAIS ELLE EST 
TRES SIMPLE D'UTILISATION. GRACE A LA TRANSFORMATION ЕМ 2, ON PEUT CONVERTIR 
TOUTES LES LOIS NORMALES ЕМ 101 NORMALE STANDARD, ET ON PEUT DONC TROUVER 
LES PROBABILITES ASSOCIEES DIRECTEMENT A PARTIR D'UNE SEULE TABLE NUMERIQUE. 


—P [PI 


f DANS UN е Мы 


OU SUR L'ÉCRAN 


M ORDINATEUR! 


- 


EN OUTRE, LA LOI NORMALE EST VRAIMENT Geor LE nikoi 
LA MÈRE DE TOUTES LES DISTRIBUTIONS ! CENTRAL LIMITE! 


MAMAN! 
MAMAN! 
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ч Chapitre 6 
Echantillonnage 


A PRESENT, APRES UN REGIME VARIE DE PIECES, DE DES ET D'IDÉES 
ABSTRAITES VOUS DEVEZ VOUS DEMANDER EN QUOI LES OUTILS 
STATISTIQUES QUE NOUS AVONS CONSTRUITS PEUVENT NOUS AIDER 
DANS LE MONDE RÉEL. EH BIEN, NOUS ALLONS ENFIN LE DÉCOUVRIR... 


DANS CE CHAPITRE, NOUS COMMENÇONS À REGARDER LE VRAI CŒUR 
DU BUSINESS DES STATISTIQUES, DONT LE BUT, APRÈS TOUT, EST DE FAIRE 
GAGNER DU TEMPS ET DE L'ARGENT. LES GENS DÉTESTENT PERDRE 
LEUR TEMPS EN FAISANT UN TRAVAIL INUTILE. S'IL Y A UNE CHOSE DONT 
LES STATISTIQUES SONT CAPABLES, C'EST JUSTEMENT DE NOUS INDIQUER 
JUSQU'À QUEL POINT NOUS POUVONS NOUS PERMETTRE D'ÊTRE PARESSEUX. 


COMMENT 

MENTIR 
AVEC DES 
: STATIST IQUES 


፻ 


за 


LE PROBLEME AVEC NOTRE MONDE EST QUE LES COLLECTIONS DE CHOSES SONT ТЕЦ ЕМЕМТ VASTES 
QU'IL EST DIFFICILE D'OBTENIR L'INFORMATION DONT ON A BESOIN. 


POPULATION DES VOTANTS : 
QUEL POURCENTAGE POUR 
QUEL CANDIDAT ? 


LA REPONSE D'UN CASTOR 
APPLIQUE, TRAVAILLEUR 
ET CANDIDE SERAIT 

DE MESURER CHAQUE 
CORNICHON DU MONDE 

ET DE FAIRE UN PEU 
D'ARITHMÉTIQUE. 


PRODUITS MANUFACTURES : CORNICHONS : QUELLE EST 
QUELLE PROPORTION LEUR LONGUEUR MOYENNE ? 
DE PRODUITS DÉFECTUEUX ? 


AUX FABRICANTS DE BOCAUX 
DE CORNICHONS | 


MAIS NOUS NE SOMMES PAS DES CASTORS 
— NOUS SOMMES DES STATISTICIENS ! 


NOUS CHERCHONS UN MOYEN PLUS FACILE. 


OH, EH BIEN, 
J'AI MANGÉ LE STYLO 
DE TOUTE FACON... 
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UNE METHODE EST DE PRENDRE 

UN ÉCHANTILLON... 

UN SOUS-ENSEMBLE RELATIVEMENT РЕПТ 
DE LA POPULATION TOTALE, À LA FAÇON 
DE CE QUE FONT LES SONDEURS 

POUR LES ÉLECTIONS. 


UNE QUESTION ÉVIDENTE APPARAÎT : QUELLE ООП ÊTRE LA TAILLE DE L'ÉCHANTILLON POUR AVOIR DES RÉSULTATS 
SIGNIFICATIFS ? 


PLUS D'UN, 
PROBABLEMENT... 


ET LA RÉPONSE À CETTE QUESTION, 

QUE VOUS DEVRIEZ GRAVER ο. 

DANS VOTRE CERVEAL, EST : ΘΙ n Vn ? 

EST LE NOMBRE D'ÉLÉMENTS JE NE SAVAIS MÉME 
DE L'ÉCHANTILLON, ALORS TOUT PAS QU'IL PARTICIPAIT 
DÉPEND DE LA VALEUR : AU SCRUTIN! 


1 


Уп 


ЕМСОКЕ 
PLUS UTILE 
QUE LE TRICOT! 


MÉTHODE 
D'ÉCHANTILLONNAGE 


AVANT ОЕМ VENIR AUX NOMBRES, 


NOUS DEVONS SIGNALER QUE LA QUALITÉ 
DE L'ÉCHANTILLON EST AUSSI IMPORTANTE š 8 


QUE SA TAILLE. 


COMMENT S'ASSURER QUE NOUS 
CHOISISSONS им ÉCHANTILLON ໃ 5, 


REPRÉSENTATIF ? 


Q 


LE PROCESSUS DE SELECTION EST 
LUI-MEME ESSENTIEL. PAR EXEMPLE, 
UN SONDAGE ELECTORAL QUI EXCLURAIT 


SYSTEMATIQUEMENT LES PARISIENS SERAIT 


INUTILE. IL Y A BIEN D'AUTRES MANIERES 


DE GACHER OU DE BIAISER UN ECHANTILLON. 


МЕ PROLONGEONS PAS LE MYSTÈRE : LA FAÇON D'OBTENIR DES RÉSULTATS STATISTIQUES 


FIABLES EST DE PRENDRE UN ÉCHANTILLON AU hasard. 


JE NE VOUS ENTENDS PAS! 
C'EST TOUJOURS AU HASARD ? 


Echantillonnage aléatoire SIMPLE : 
IL NÉCESSITE UNE GRANDE POPULATION 

D'ÉLÉMENTS ЕТ UNE PROCÉDURE 

POUR EN CHOISIR П PARMI EUX. 

SI LA PROCÉDURE ASSURE QUE CHACUN 

DES ÉCHANTILLONS POSSIBLES 

DE n ÉLÉMENTS EST ÉQUIPROBABLE, (==) 
ALORS ELLE NOUS РКОСИКЕ 


uN échantillon aléatoire simple. 


L'ÉCHANTILLONNAGE ALÉATOIRE SIMPLE DÉFINIT UN STANDARD PAR RAPPORT AUX AUTRES 
METHODES, CAR IL VERIFIE DEUX PROPRIETES : 


4) NON BIAISE : CHAQUE ELEMENT 
A LES MEMES CHANCES D'ETRE SELECTIONNE. 


2) INDEPENDANCE : LA SELECTION 
D'UN ELEMENT МА AUCUNE INCIDENCE 
SUR LA SELECTION DES AUTRES ELEMENTS. 


N. 


MALHEUREUSEMENT, IL EST DIFFICILE DE TROUVER DES ECHANTILLONS INDEPENDANTS 
ET TOTALEMENT SANS BIAIS DANS LE MONDE REEL. PAR EXEMPLE, UN SONDAGE 
EFFECTUE EN COMPOSANT AU HASARD DES NUMEROS DE TELEPHONE SERA BIAISE : 

IL IGNORE LES PERSONNES NE DETENANT PAS DE TELEPHONE ET SURREPRESENTE 
CELLES AYANT PLUS D'UNE LIGNE TÉLÉPHONIQUE. 


ALLO? ICI LE DÉPARTEMENT 
GRIND, TECHNOLOGIES OBSOLETES ! 
` 
х, 


DES 
LCN 


THÉORIQUEMENT, IL EST POSSIBLE 
D'OBTENIR UN ÉCHANTILLON ALÉATOIRE 
SIMPLE EN ÉTABLISSANT LA BASE 
D'ÉCHANTILLONNAGE : 

UNE LISTE DE TOUS LES ELEMENTS 

DE LA POPULATION. ON PEUT ALORS 
AVEC UN GENERATEUR DE NOMBRES 


ALEATOIRES SÉLECTIONNER П ELEMENTS 
AU HASARD. 


1 


ПТТ 


//////ሃ nnm 


yD) uno? 


1ነ 
ነነ 


- 
2 
= 
-- 
-- 
~ 
— 
- 
- 
- 
- 
-- 
- 
- 
— 
— 
ሙ 
- 
፦ 
- 


፥ 
ነነ 


DE MEME, ON PEUT INSCRIRE 
LES NOMS SUR DES CARTES 
ЕТ EN PRELEVER п AU HASARD 


DANS UNE ИКМЕ OU UN TAMBOUR. 


MAIS CE N'EST PAS TOUJOURS FACILE. IL PEUT ETRE TROP COÜTEUX, POLÉMIQUE 
OU MEME IMPOSSIBLE DE CREER LA BASE D'ECHANTILLONNAGE. PAR EXEMPLE, UNE ETUDE 


MINISTERIELLE SUR LA QUALITE DES EAUX NECESSITE UNE BASE D'ECHANTILLONNAGE 
DES LACS. IL FAUT DONC QUE QUELQU'UN DECIDE : 


Y A-T-IL D'AUTRES FAÇONS PLUS EFFICACES ET MOINS COÛTEUSES DE CRÉER 


UN ÉCHANTILLON ? LA RÉPONSE EST OUI SI VOUS CONNAISSEZ UN PEU VOTRE POPULATION. 
PAR EXEMPLE... 


44 


Echantillonnage 
stratifie : ре τ 
ON DIVISE LA POPULATION EN GROUPES = 2 ü POIVRONS 
D'ÉLÉMENTS HOMOGÈNES (STRATES) ; жылы 
ET ON РКЕМО UN ÉCHANTILLON ALÉATOIRE " 


4 


( ` 


A γῇ 


SIMPLE DE CHAQUE GROUPE. 


3 


ρα 


НАМВИКСЕК 


PAR EXEMPLE, LA POPULATION DE TOUS LES CORNICHONS PEUT ETRE STRATIFIEE 
PAR TYPES. LEUR TAILLE SERA ALORS MOINS VARIABLE A L'INTERIEUR DE CHAQUE STRATE. 


< A ON SUBDIVISE LA POPULATION EN PLUS 
Echantillonnage en grappes : PETITES GRAPPES. ON PREND ALORS 
UN ÉCHANTILLON ALÉATOIRE SIMPLE DE GRAPPES ET ON OBSERVE TOUS LES ÉLÉMENTS 

DES GRAPPES SÉLECTIONNÉES. CETTE TECHNIQUE EST TRÈS RENTABLE LORSQUE 

LES COÛTS DE TRANSPORT ENTRE LES ÉLÉMENTS SONT ÉLEVÉS. 


POUR UNE ÉTUDE 

SUR LES FOYERS D'UNE VILLE, 
ON PEUT PAR EXEMPLE : 

DIVISER LA VILLE EN BLOCS, 
SELECTIONNER UN ÉCHANTILLON 
DE BLOCS ET SONDER CHAQUE 
FOYER DES BLOCS CHOISIS. 
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Echantillonnage ON COMMENCE PAR CHOISIR UN PREMIER ÉLÉMENT 
svstématique : AU HASARD, PUIS ON PREND TOUS LES К2 SUIVANTS. 

y q : РАК EXEMPLE, UNE ÉTUDE SUR LE TRAFIC AUTOROUTIER 
PEUT TESTER CHAQUE VOITURE SUR 100 PASSAGES À UNE BARRIERE DE PEAGE. CETTE STRATEGIE 
EST FACILE A METTRE EN PLACE ET ELLE EST PLUS EFFICACE 
SI LA CIRCULATION VARIE PEU AVEC LE TEMPS. 


EXCUSEZ-MOI... 
ACCEPTERIEZ-VOUS 
DE RÉPONDRE À 50 OU 60 QUESTIONS ? 


W 


UN 


AM 


Avertissement N° I : 


LA PLUPART DES MÉTHODES STATISTIQUES DÉPENDENT 
DE L'INDÉPENDANCE ET DE L'ABSENCE DE BIAIS 

DE L'ÉCHANTILLONNAGE ALÉATOIRE SIMPLE. 

LES RÉSULTATS QUI SUIVRONT NE S'APPLIQUENT 

QU'À DES ÉCHANTILLONS ALÉATOIRES SIMPLES. 

POUR LES AUTRES MÉTHODES D'ÉCHANTILLONNAGE, 

LES RÉSULTATS SONT DIFFÉRENTS. POUR CES DERNIERS, 
ON PEUT UTILISER DES MANUELS SPÉCIALISÉS 

OU DES ALGORITHMES INFORMATIQUES. 
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Avertissement N° 2 : SANS CRÉATION DE HASARD, 
IL N'Y A PAS D'ANALYSE STATISTIQUE 


FIABLE, ET CE QUELLES QUE SOIENT 
LES ADAPTATIONS. L'AVANTAGE 

DE L'ÉCHANTILLONNAGE ALÉATOIRE 
EST QUE CELUI-CI GARANTIT 


STATISTIQUEMENT LA RIGUEUR 
DES ENQUÊTES. 


UNE MÉTHODE TRÈS SOUVENT UTILISÉE ET PARTICULIÈREMENT SUJETTE À BIAIS EST CELLE 
ve L'échantillonnage de commodité. L'ENQUÊTEUR ÉVITE LES TRACAS 

D'UNE PROCÉDURE PARTICULIÈRE EN PRENANT SIMPLEMENT 
LES П PREMIERS ÉLÉMENTS DE LA POPULATION 

QUI LUI TOMBENT SOUS LA MAIN. 


NE VOUS INQUIÉTEZ PAS! 
ON EST VOLONTAIRES ! 


OT de ¿+ “ 


ON ЕМ TROUVE UN EXEMPLE DANS LE LIVRE LES FEMMES ET L'AMOUR ÉCRIT EN 1487 PAR SHERE HITE. 
EN EFFET, 100 000 QUESTIONNAIRES FURENT ENVOYES A DES ORGANISATIONS FEMININES 

(UN ÉCHANTILLON D'OPPORTUNITÉ). SEULEMENT 4,5 % FURENT RENVOYES (BIAIS DANS 

LES RÉPONSES). SES « RÉSULTATS » ETAIENT DONC FONDÉS SUR UN ÉCHANTILLON DE FEMMES 
MOTIVÉES, DÉSIREUSES DE RÉPONDRE AUX QUESTIONS DE L'ENQUÊTE POUR DES RAISONS DIVERSES. 


ENFIN UNE MANIÈRE 
SCIENTIFIQUE D'HUMILIER 
MON ЕХ! 


TAILLE D'ÉCHANTILLON 
et erreur-type 


SOYONS MAINTENANT PLUS TERRE 

A TERRE ЕТ PARLONS CLOUS... 
IMAGINONS LE PROBLEME DE L'USINE 
DE CLOUS BERNOULLI QU! PRODUIT 
EN SERIE DES CLOUS EN LAITON. 


INEVITABLEMENT, CERTAINS SERONT 
DEFECTUEUX. 


LES LECTEURS ATTENTIFS RECONNAÍTRONT UN SCHEMA DE BERNOULLI : 
CHAQUE NOUVEAU CLOU EST LE RESULTAT D'UNE EPREUVE DE BERNOULLI 

AVEC UNE PROBABILITE р DE SUCCES (CLOU SANS DEFAUT) ET UNE PROBABILITE 
I - p D'ÉCHEC (CLOU DÉFECTUEUX). 


C'EST DU SOLIDE, 
LE BINOMIAL! 


ON PEUT CONSIDÉRER QUE TOUT SE PASSE COMME SI UNE MACHINE DE BERNOULLI 
CACHEE, MAIS REELLE, PRODUISAIT SELON UNE PROBABILITE р LES RESULTATS 
OBSERVES DANS LE MONDE REEL. 
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COMME LA MACHINE DE BERNOULLI — 

EST INVISIBLE, ON NE CONNAÍT PAS P HUM... 

P MAIS ON AIMERAIT LE CONNAÎTRE. JE CROIS QUE П = 400 
ON PREND DONC UN ÉCHANTILLON | ) ET X = 352... 
ALÉATOIRE DE n CLOUS, 

ET ON REMARQUE QUE % D'ENTRE 

EUX SONT IRRÉPROCHABLES. 


MAINTENANT LA PROPORTION DE SUCCES DANS L'ÉCHANTILLON DEVRAIT ETRE 
DE L'ORDRE DE p. ON NOTE CETTE PROPORTION р ET ON PRONONCE < p-CHAPEAU >. 


ጋ... x 
Р= п 


Р EST LE RATIO DU NOMBRE X DE SUCCES DE L'ÉCHANTILLON PAR LA TAILLE п 

DE L'ÉCHANTILLON. FAR EXEMPLE, SI p VAUT 0,85 ЕТ QUE L'ON AIT ÉCHANTILLONNÉ 
п = 1000 CLOUS, ON POURRAIT TROUVER X = 832 CLOUS SANS DÉFAUT, DE SORTE 
QUE р = 0,832. 


АЕ! 
EST-CE УКАМЕМТ 
«вом»? 


ГА QUESTION EST : 
CETTE ESTIMATION 
EST-ELLE BONNE ? 


ET NOUS ALLONS RÉPONDRE 
À UNE AUTRE QUESTION : 

QUE SIGNIFIE NOTRE PREMIERE 
QUESTION ? 


ON NE PEUT PAS CONNAÎTRE LA VERITABLE DIFFÉRENCE ENTRE P ET p, CAR NOUS NE SAVONS PAS 
LA VALEUR EXACTE DE p. LA VRAIE QUESTION EST : SI L'ON PREND PLUSIEURS ÉCHANTILLONS 
DE 1000 CLOUS ET QUE L'ON OBSERVE CHAQUE р, COMMENT CES р SERONT-ILS DISTRIBUÉS 
AUTOUR DE p ? 


ЕМ FAIT, CES VALEURS DE P RESSEMBLENT FORTEMENT À UNE VARIABLE ALEATOIRE : 
LA SELECTION D'ECHANTILLON DE п ELEMENTS EST UNE EXPERIENCE ALEATOIRE ET L'OBSERVATION 
DE P ЕМ EST LE RÉSULTAT NUMÉRIQUE! 


JE COMMENCE À Y VOIR 
PLUS CLAIR... 
JE SAVAIS QUE CELA 
МЕ SERAIT PAS DOULOUREUX... 


« * 
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POUR ÊTRE PRÉCIS, SI X EST 
LE NOMBRE DE SUCCES 


DE L'ÉCHANTILLON, ALORS X . 
N'EST RIEN D'AUTRE GRAND Р EST LA VARIABLE 


ALÉATOIRE, PETIT ይ EST SA VALEUR 
QU'UNE VARIABLE ALÉATOIRE POUR UN ÉCHANTILLON DONNÉ ! 
BINOMIALE (AVEC n ESSAIS 
ET DE PROBABILITÉ p)... 
ET NOUS DÉFINISSONS 


LA PROPORTION 
D'ÉCHANTILLON 

(ου PROPORTION OBSERVÉE) 
COMME ETANT 

LA VARIABLE ALEATOIRE : 
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CONNAISSANT X, ON CONCLUT RAPIDEMENT QUELQUES PROPRIETES SUR P: 


1) LA MOYENNE DE P EST E[P] = p 
2) L'ÉCART-TYPE DE P EST 


ወሯ) ። Р) 


Vn 


2) POUR DE GRANDES VALEURS DE n, 
P EST APPROXIMATIVEMENT NORMALE 


ET VOILÀ VOUS SAVEZ TOUT! LES VALEURS OBSERVEES DE P SONT CENTRÉES EN p 
(SANS SURPRISE), ET L'ÉCART-TYPE (OU EN ANGLAIS SPREAD) EST PROPORTIONNEL 
A CE NOMBRE MAGIQUE QUE NOUS AVONS MENTIONNE EN DEBUT DE CHAPITRE. 


PAS 
DE LA TAILLE 
DE LA POPULATION! 


CELA DEPEND 
UNIQUEMENT 
DE LA TAILLE DE 
L'ÉCHANTILLON... 


ET COMME Р EST PRESQUE NORMALE, ON PEUT UTILISER LA RÉGLE EMPIRIQUE 
QUI DIT QU'APPROXIMATIVEMENT 68 % DE NOS ESTIMATIONS D'ÉCHANTILLON SERONT 
A UN ÉCART-TYPE DE LA VRAIE VALEUR p. 


JE SUIS PRESQUE 
NORMAL, MOI AUSSI... 
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REVENONS À NOS CLOUS AVEC п = 1000 
ET p = 0,85, L'ÉCART-TYPE EST DE : 


ÇA RESSEMBLE 
UN PEU À UN 


DE CES CLOUS... 
A | (0,25)(0,15) 
о(Р) = 1000 


= 0,013 


68 % DE NOS ESTIMATIONS 
PONCTUELLES DOIVENT 
ETRE DANS L'INTERVALLE 


0,8387 < P < 0,8613 


ПЕСАКТ-ТУРЕ DE P EST UNE MESURE 

pe L'erreur-type d'échantillonnage. 

COMME NOUS L'AVONS VU, CETTE ERREUR : 

D'ÉCHANTILLONNAGE EST INVERSEMENT PROPORTIONNELLE DÉJÀ, AVEC n = 100, 
а ON VOIT QUE σ(β) EST 

À Vn. AUGMENTER LA TAILLE DE L'ECHANTILLON DE L'ORDRE DE ፀ፥%. 

D'UN FACTEUR 4 RÉDUIT L'ERREUR-TYPE σ(Ρ) DE MOITIÉ. 


TAILLE D'ÉCHANTILLON DES CLOUS, р = 0,85 


n l 4 16 25 100 10 000 


Vn 1 2 4 5 D 100 


NOTE DE VOCABULAIRE : UNE ESTIMATION OU ESTIMATION PONCTUELLE EST UNE MESURE 
OBSERVEE SUR UN ECHANTILLON. UN ESTIMATEUR EST UNE REGLE POUR OBTENIR CES 
ESTIMATIONS. L'ESTIMATEUR EST LA VARIABLE ALÉATOIRE P = X/n. 
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LES STATISTIQUES IMPLIQUENT EN GENERAL UN PROCESSUS ЕМ 4 ÉTAPES COMME NOUS VENONS 


DE LE FAIRE : 
DEFINIR LA POPULATION AVEC LE PARAMETRE | TROUVER UN ΕΘΤΙΜΑΤΕυΕ, SA DISTRIBUTION 
D'ÉCHANTILLONNAGE THÉORIQUE 


INCONNU. 
ET SON ERREUR-TYPE. 


P 


PRENDRE UN VRAI ÉCHANTILLON ALÉATOIRE INDIQUER LE RÉSULTAT ET L'ERREUR 
ET TROUVER UNE ESTIMATION PONCTUELLE. STATISTIQUE D'ECHANTILLONNAGE. 


MAIS ди, 

AU JUSTE, 
VOUS A 

EMBAUCHÉ ? 


NOUS AVONS р = 0,84 
AVEC UNE ERREUR-TYPE 
D'ÉCHANTILLONNAGE DE 1,1 %, 
CHEF BERNOULLI... 


AH! P ναυτ 
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Distribution d’échantillonnage 
де la МОУЕММЕ 


MAINTENANT, ON PASSE DES CLOUS ΕΝ LAITON AUX CORNICHONS... 


ares 


C'EST DU LOURD, 
CE CORNICHON ! J 


ም 
ያዳ // 
НК И 
| RANNA, VM 

NULLE TS EAN 
à 


x e 
mL AB е: 


LES FABRICANTS DE BOCAUX VEULENT CONNAÍTRE LA TAILLE MOYENNE 
DES CORNICHONS SANS AVOIR А INSPECTER TOUTES LES CUCURBITACÉES 
DE LA FRANCE. ILS SÉLECTIONNENT AU HASARD n CORNICHONS 

ET MESURENT LEURS TAILLES X» X, -. Ke 


À PRÉSENT, VOUS DEVEZ ^ 
VOUS DOUTER QUE CHAQUE (е 
X, EST ИМЕ VARIABLE 

ALÉATOIRE EN TANT 

QUE RÉSULTAT D'UNE 

EXPERIENCE ALEATOIRE. 


SI ሠ. EST LA MOYENNE (INCONNUE) 
ЕТО EST L'ÉCART-TYPE 


DE LA DISTRIBUTION DES TAILLES C'EST ÉTRANGE TOUT CE QU'ON SAIT 
DE CORNICHONS, ALORS : SUR LES VARIABLES ALÉATOIRES, ALORS 
QU'IL Y A SEULEMENT UNE MINUTE 

E» ON NE SAVAIT PAS CE QU'ÉTAIT 

E[ X] -H UNE VARIABLE ALÉATOIRE... 

olX] = © 

POUR CHAQUE i (CAR κ, 

EST UNE TAILLE POSSIBLE 

DE CORNICHONS). 
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MAINTENANT REGARDONS LA MOYENNE 


D'ÉCHANTILLON, CELLE DES CORNICHONS ው БЕШЕНЕ CHOSE 


QUI N'EST PAS 


SELECTIONNES. C'EST UNE NOUVELLE VARIABLE UNE VARIABLE ALÉATOIRE ? 
ALÉATOIRE DONNÉE PAR : 


X +X, +... +X, 


X= Я 


COMME AUPARAVANT, NOUS VOUDRIONS CONNAÎTRE A QUEL POINT CETTE VALEUR 
APPROCHE |... AUTREMENT DIT, SI ON DISPOSAIT DE PLUSIEURS ÉCHANTILLONS 
DIFFÉRENTS, QUELLE SERAIT LA DISTRIBUTION DE X ? COMME NOUS CONNAISSONS 
X, X, ... ET X , ON SAIT AUSSI QUE : 


E[X] = и 


LES VARIANCES 


τ. © DES X./n 
σίχ ) “Vn S'ADDITIONNENT 
n POUR DONNER _ 


À NOUVEAU, ON RETROUVE 
NOTRE DÉNOMINATEUR MAGIQUE! 
L'ÉCART-TYPE DES OBSERVATIONS 
D'ÉCHANTILLONS DÉPEND DE 


LA VARIANCE DE X. 


MAIS NOUS NE CONNAISSONS PAS LA FORME DE LA DISTRIBUTION DE X. 

LA DISTRIBUTION D'ÉCHANTILLONNAGE DE P ÉTAIT PROCHE D'UNE NORMALE, 
CAR BASÉE SUR UNE VARIABLE ALÉATOIRE BINOMIALE. MAIS QU'EN EST-IL DE X, 
L'ESTIMATEUR DE LA MOYENNE D'ÉCHANTILLON ? 
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IL SE TROUVE QUE X EST ÉGALEMENT PRESQUE NORMALE ! 
CE RESULTAT BIEN СОММИ PORTE AUSSI LE NOM 


pe THEOREME CENTRAL LIMITE. 


IL DIT QUE SI L'ON PREND DES 
ÉCHANTILLONS ALÉATOIRES DE TAILLE 
п D'UNE POPULATION DE MOYENNE |. 
ET D'ÉCART-TYPE С, ALORS PLUS n 


LE MÉME SON 


AUGMENTE, PLUS X TEND VERS 

UNE DISTRIBUTION NORMALE DE 
MOYENNE ሀ ET D'ECART-TYPE О/Уп. 
AINSI, 


FOURQUOI EST-CE REMARQUABLE ? CELA INDIQUE QUE, QUELLE QUE SOIT LA FORME 

DE LA DISTRIBUTION INITIALE (DES TAILLES DE CORNICHONS POUR NOUS), 

LES MOYENNES D'ÉCHANTILLON TENDENT VERS UNE LOI NORMALE. POUR CONNAÎTRE 
LA DISTRIBUTION DE X, IL NOUS SUFFIT DE CONNAÍTRE LA MOYENNE ET L'ÉCART-TYPE 
DE LA POPULATION. 


X | | И | | | | W | | 
LES TROIS DENSITES PRECEDENTES ONT LES MEMES MOYENNES ЕТ ECARTS-TYPES. MALGRE 


LEURS FORMES DIFFÉRENTES, LORSQUE n = 10, LES DISTRIBUTIONS D'ÉCHANTILLONNAGE 
DE LA MOYENNE Х SONT QUASIMENT IDENTIQUES. 
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Ге <t de Student ንን 


AUSSI INCROYABLE QUE SOIT LE THEOREME CENTRAL LIMITE, IL A AU MOINS 
DEUX DEFAUTS. 


LE PREMIER : IL FAUT QUE п SOIT GRAND. 


LE SECOND : IL FAUT CONNATTRE 
L'ÉCART-TYPE O. 


GROS CORNICHON, 
MAIS LES ÉCHANTILLONS SONT SOUVENT PETIT ÉCHANTILLON... 
PETITS ET O EST GÉNÉRALEMENT INCONNU. 
QUOI QU'IL EN SOIT DANS LE CAS 
DES CORNICHONS, NOUS N'AVONS 
AUCUNE IDÉE DE LA DISPERSION 
DES TAILLES DES CORNICHONS AUTOUR 
DE LA MOYENNE. 


ON PEUT ALORS ESTIMER σ EN PRENANT 5 L'ÉCART-TYPE À L'INTÉRIEUR 
DE L'ÉCHANTILLON OBTENU À PARTIR DE : 


e= < Σο -XF NE VOUS EMPORTEZ PAS... 


GARDEZ DES PENSEES 
Ан! ARGHHH! POSITIVES... 
QU'EST-CE QUE 
C'EST QUE CE TRUC ? 
AINSI À L'INTÉRIEUR DE LA VARIABLE 


ALÉATOIRE : 
Х-и 
on 


ON REMPLACE С PAR 5 ET ON DÉFINIT 
UNE NOUVELLE VARIABLE ALÉATOIRE Ё: 


Х-и 
s/vn. 
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ON PEUT VOIR LA VARIABLE ALEATOIRE Е COMME LA MEILLEURE APPROXIMATION POSSIBLE 
ÉTANT DONNÉ LES CIRCONSTANCES. SA DISTRIBUTION EST APPELÉE Ё DE STUDENT, CAR ELLE 
A ETE PUBLIEE PAR SON INVENTEUR WILLIAM GOSSET SOUS LE PSEUDONYME < ÉTUDIANT ». 


v ne, --.- w e 
eA АТ ПЕ 


GOSSET, 


መግቻ TU PRETENDS QUE LA QUALITÉ 
DE NOS PRODUITS 


J'AI BESOIN D'UN CAFÉ 
ET D'UN ORDINATEUR... 


EST VARIABLE! 
UTILISE UN 


енна ETAIT UN EMPLOYE DE LA BRASSERIE 


GUINNESS, QUI LUI DEMANDA D'UTILISER 
UN PSEUDONYME POUR DIVERSES RAISONS). 


EN FAISANT L'HYPOTHESE QUE LA POPULATION 
ORIGINALE DES OBSERVATIONS ЕТАТ 
NORMALE, OU PRESQUE, < STUDENT» 

PUT FOURNIR UNE CONCLUSION : 


CETTE SUBSTANCE 
NOUS SAOULE, MEME SI 
C'EST LAMENTABLE! 


LA QUANTITE DE DISPERSION DEPEND DE n, 

LA TAILLE DE L'ECHANTILLON. PLUS LA TAILLE 
D'ÉCHANTILLON EST ÉLEVÉE, PLUS S APPROXIME 
BIEN σ ЕТ t SE RAPPROCHE DE Z, LA LOI 


NORMALE. 
NORMALE 


t AVEC n ELEVE 


t AVEC n FAIBLE 
7 


LE t DE STUDENT EST PLUS DISPERSE 

ET PLUS APLATI QU'UNE LOI NORMALE (Z). 

CELA S'EXPLIQUE PAR L'UTILISATION DE L'ECART- 
TYPE D'ÉCHANTILLON (5) QUI INTRODUIT ENCORE 
PLUS D'INCERTITUDE DANS LA DISTRIBUTION. 


GOSSET PUT ÉTABLIR DES TABLES DE Е POUR 
DIFFÉRENTES TAILLES D'ÉCHANTILLON ET NOUS 
LES UTILISERONS DANS LE PROCHAIN CHAPITRE. 


ΕΝΤΕΕ-ΤΕΜΡΘ, 
ΕΑΙΘΟΝΘ LE POINT 
SUR CE QUE VOUS VENEZ 
D'APPRENDRE ! 
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DANS СЕ CHAPITRE, NOUS AVONS VU LE PROBLEME CENTRAL DES STATISTIQUES APPLIQUÉES : 
COMMENT CONSTRUIRE UN ÉCHANTILLON D'UNE GRANDE POPULATION AFIN QUE LES ANALYSES 
STATISTIQUES SOIENT VALIDES. OUTRE LA < NORME STANDARD > DE L'ÉCHANTILLON ALÉATOIRE 
SIMPLE, NOUS AVONS VU D'AUTRES MÉTHODES D'ÉCHANTILLONNAGE QUI PEUVENT ÊTRE UTILISÉES 
POUR DES RAISONS PRATIQUES D'EFFICACITÉ Ой DE COÛT. 


SUR UNE ÉCHELLE 
DE 1 À 5, 

QUE PENSEZ-VOUS 
DES GENS 

QUI FONT ATTENDRE 

LES AUTRES ? 


ENSUITE, ET AVEC UN ÉCHANTILLON ALÉATOIRE SIMPLE, NOUS AVONS VU COMMENT 
LES STATISTIQUES D'ÉCHANTILLONS ÉTAIENT DISTRIBUÉES. AINSI ON A VU QUE PRENDRE 
UN ÉCHANTILLON CONSTITUAIT UNE EXPÉRIENCE ALÉATOIRE, ET QUE LES STATISTIQUES 
OBSERVÉES DEVENAIENT DES VARIABLES ALÉATOIRES. 


LA LUMIÈRE NOUS 
A ENCORE FRAPPÉS | 


ON A VU QUE LA VARIABLE ALÉATOIRE 
PROPORTION D'ÉCHANTILLON ይ 

ET QUE LA VARIABLE ALÉATOIRE 
MOYENNE D'ÉCHANTILLON X 
ÉTAIENT À PEU PRÈS DISTRIBUÉES 
NORMALEMENT LORSQUE LA TAILLE 
D'ÉCHANTILLON ÉTAIT SUFFISANTE. 

ON A AUSSI INTRODUIT LES VARIABLES 
STANDARDS 7 ET t, QUI SERVIRONT 
SUR LES RÉSULTATS D'ÉCHANTILLONS 
POUR LES CHAPITRES SUIVANTS. 


UN TOAST* POUR 
L'ARITHMÉTIQUE FACILE ! 


* AVEC DU THE BIEN SÛR! 
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DANS LES DEUX PROCHAINS CHAPITRES, NOUS ALLONS 
VOIR COMMENT UTILISER CES DISTRIBUTIONS POUR FAIRE 
DES INFÉRENCES STATISTIQUES : À PARTIR D'UN SEUL 
ÉCHANTILLON, UN SONDAGE D'OPINION PAR EXEMPLE, COMMENT 
MOBILISER NOS CONNAISSANCES SUR P ET X POUR LES ÉVALUER ? 


LES STATS, 
IL NE FAUT PAS 
S'ASSEOIR 
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Chapitre 7 
Intervalles 
de confiance 


DANS LE CHAPITRE PRECEDENT, 
NOUS AVONS VU LES METHODES 
D'ECHANTILLONNAGE. A PARTIR 
D'UNE GRANDE POPULATION, 
NOUS AVONS ANALYSE COMMENT 
LA DISTRIBUTION D'ESTIMATEURS 
D'ECHANTILLON VARIAIT SELON 
LES ECHANTILLONS. 


DANS CE CHAPITRE, NOUS FERONS L'INVERSE. A PARTIR D'UN ECHANTILLON, 
NOUS NOUS DEMANDERONS QUEL EST LE SYSTEME ALEATOIRE QUI A GENERE 
NOS STATISTIQUES ? 


AINSI, 
A PARTIR D'UNE SEULE BOÍTE 
DE CLOUS ET ETANT DONNE 
LES RESULTATS 


DU CHAPITRE PRECEDENT, 
QUE POUVONS-NOUS 
CONCLURE ? 
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CELA CHANGE NOTRE MODE DE PENSÉE : 
ON PASSE D'UN RAISONNEMENT DEDUCTIF C'EST COMME UNE ENQUETE 
A UN RAISONNEMENT INDUCTIF. CRIMINELLE, WATSON! 


DANS UN RAISONNEMENT DEDUCTIF, LE RAISONNEMENT INDUCTIF 

ON PART D'UNE HYPOTHESE POUR ARRIVER EST A REBOURS, ON PART 

А UNE CONCLUSION : < ŠI LORD FINE-GACHETTE D'UN ENSEMBLE D'OBSERVATIONS 

A COMMIS LE CRIME, ALORS IL A EFFACE VERS UNE HYPOTHESE VRAISEMBLABLE. 


SES EMPREINTES DE L'ARME. » 


INDUCTION 
BRILLANTE, 
HOLMES! 


Ним! 
LE MONOGRAMME 
DE LORD FINE-GACHETTE 
EST SUR CE MOUCHOIR 
ET CE REVOLVER. FINE-GACHETTE 
EST LE MEURTRIER, WATSON, 
JEN suis SÛR À 45 +! 


A BIEN DES EGARDS, LA SCIENCE ET DONC LES STATISTIQUES RESSEMBLENT 
A UN TRAVAIL DE DETECTIVE. A PARTIR D'UN ENSEMBLE D'OBSERVATIONS, 
NOUS NOUS INTERROGEONS SUR CE QUI LES A GENEREES. 
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ESTIMATION 
d'intervalles de confiance 


TENEZ MON CHAPEAU, 
WATSON! JE ME LANCE 
DANS LE BUSINESS 

DES SONDAGES | 


C'EST UNE FORME D'INFERENCE STATISTIQUE, 
QUE L'ON VOIT APPARAÎTRE CHAQUE FOIS 
PENDANT LES PÉRIODES ÉLECTORALES... 


QUELQUE PART, LORS D'UNE ÉLECTION RÉCENTE, LE SÉNATEUR EN PLACE ASTUTE 
COMMANDE UN SONDAGE À HOLMES RECHERCHE INSTITUT. LE SONDEUR HOLMES 
PREND ALORS UN ÉCHANTILLON ALÉATOIRE SIMPLE DE 1000 ÉLECTEURS 

ET LEUR DEMANDE CE QU'ILS PENSENT D'ASTUTE. 


А) IL EST UN DON 


DE DIEU POUR L'HUMANITÉ. 
B) IL EST LA RÉPONSE 
AUX PRIÈRES DÉSESPÉRÉES 
DE LA MAJORITÉ 
DE L'HUMANITÉ. 


APRÈS AVOIR CENSURÉ LES REMARQUES DES QUELQUES VALEURS EXTRÊMEMENT 
GRINCHEUSES, HOLMES TROUVE QUE 550 VOTANTS SONT EN FAVEUR DE SON CLIENT, 
LE SÉNATEUR ASTUTE. 


CELA CONSTITUE 
L'ESTIMATION PONCTUELLE. 
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VOUS AVEZ SEULEMENT 
INTERROGE MILLE PERSONNES ? ! 
MAIS IL Y A PLUS D'UN MILLION 
DE VOTANTS DANS L'ÉTAT! 


PEU IMPORTE 
QU'IL Y AIT UN MILLION 
OU UN MILLIARD 
DE VOTANTS... 


—— 

CETTE GARANTIE... 
ELLE EST ABSOLUE, 
DU TYPE 100 9, REMBOURSÉE, 
C'EST BIEN CELA? 


HUM... AH! BIEN. 
C'EST STATISTIQUE 
EN FAIT... 


SOR À as %?! 
SUPERBE! QUE CROYEZ-VOUS 
QU'IL SE PASSERAIT 
Sl JE FAISAIS CAMPAGNE 
AVEC 45 % D'HONNÊTETÉ ? 


JE NE SAIS PAS, 
PERSONNE N'A JAMAIS 
ESSAYÉ... 


IIS 


J'AI PRIS UN ÉCHANTILLON 
ALÉATOIRE SIMPLE ! CELA IMPLIQUE 
QUE JE PEUX VOUS PROPOSER 
UNE GARANTIE EN ВЕТОМ! 


Ош, JE PEUX DIRE AVEC 45 % 
ρε CONFIANCE QUE p, 
LA VRAIE PROPORTION DE POPULATION, 
EST ENTRE 0,514 ET 0,581 | 


UNE FOIS ASTUTE CALMÉ, 
HOLMES LUI EXPLIQUE LE SENS 
D'UNE CONFIANCE A ds % : 

IL SAIT QUE SA PROCEDURE 
D'ESTIMATION A UNE PROBABILITE 
DE 95 % DE PRODUIRE 

UN INTERVALLE CONTENANT р. 


AINSI PENDANT SES NOMBREUSES 
ANNÉES DE SONDAGE, p ÉTAIT 
DANS L'INTERVALLE DE CONFIANCE 
AUTOUR DE P, LA VALEUR 
OBSERVÉE, DANS 45 % DES CAS. 


LE SÉNATEUR ASTUTE DEMEURE CONSIDERONS UN ARCHER SONDEUR QUI VISE 
PERPLEXE! ALORS HOLMES LUI DONNE UNE CIBLE. SUPPOSONS QU'IL TOUCHE 45 % DU TEMPS 
име leçon de tir a Parc. LE CENTRE DE LA CIBLE DANS UN RAYON DE 10 cm. 

Р AINSI, SEULE UNE FLECHE SUR 20 МАТТЕМТ PAS 


Sor! CE DISQUE. 
N'IMPORTE QUOI 


QUI NOUS CHANGERA 
LES IDEES DE CES 
FOUTUES STATISTIQUES! Д 


NOTRE BRAVE DETECTIVE EST ASSIS DERRIÈRE CONNAISSANT L'AGILITE DU TIREUR, 
LA CIBLE ET N'EN VOIT PAS LE CENTRE. LE DETECTIVE TRACE UN CERCLE DE RAYON 
L'ARCHER TIRE UNE SEULE FLECHE. 10 cm AUTOUR DE LA POINTE DE LA FLECHE. 
IL EST MAINTENANT CONFIANT A 45 % 
QUE LE DISQUE INCLUT LE CENTRE DE LA CIBLE. 


SON RAISONNEMENT EST QUE, S'IL TRACE DES CERCLES 
DE RAYON DE 10 cm AUTOUR DE PLUSIEURS FLECHES, (LES PROBABILISTES 


LES DISQUES VONT INCLURE LE CENTRE DANS ds % DES CAS. UTILISENT LE TERME 
STOCHASTIQUE 


POUR DÉCRIRE 

CES MODÈLES 
ALÉATOIRES. 

CELA VIENT DU GREC 
STOKHAZESTHAI 
QUI VEUT DIRE VISER 
UNE CIBLE, 

ET DE STOKHOS 
UNE FLÈCHE.) 
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HOLMES TRADUIT MAINTENANT LA LECON 
DE TIR A L'ARC DANS LE LANGAGE DEVELOPPE 
AU CHAPITRE PRECEDENT. 


MOINS VITE! 
JE N'AI PAS 
L'HABITUDE 
QU'ON ME 
DIRIGE... 


Premier temps. TIREZ BEAUCOUP 


DE FLÉCHES. Р 
CORRESPOND 
AU CENTRE 


UN CALCUL DE PROBABILITE PERMET DE LA CIBLE! 


D'ESTIMER LA POSITION DU CENTRE 

DE LA CIBLE. LES ESTIMATIONS PONCTUELLES 
Р CORRESPONDENT А NOS FLÈCHES. 

LA DISTRIBUTION D'ÉCHANTILLONNAGE 

DE Р EST PRESQUE NORMALE DE MOYENNE 
” ET D'ÉCART-TYPE 


σ(β) -PP 


COMME LA COURBE EST NORMALE, NOUS UTILISONS SON Z-SCORE ET UNE TABLE STANDARD 
POUR ÉVALUER LA LARGEUR DE L'INTERVALLE DANS LEQUEL 45 % DES FLECHES TOMBENT 
(NOUS ALLONS VOIR EXACTEMENT COMMENT CALCULER CELA DANS QUELQUES PAGES). 
NOUS TROUVONS QUE CETTE LARGEUR EST DE 1,46 ECARTS-TYPES. 


0,45 = Р(-1,46 < z < 1,46) 


—— 
LE RAYON AUTOUR 


DU CENTRE EST 45 % DES FLÉCHES 
DE 1,46 ECARTS-TYPES. I SE TROUVENT DANS 
ч CET INTERVALLE. 


Ν 


MAINTENANT, FAISONS UN PEU D'ALGEBRE. SA /ሥ Hino! 
ON TRANSFORME EN LOI NORMALE STANDARD Z : 2] (INriRMIERS! 


Р-р 
o(P) 


< tae) 


0,45 == ρ|- 1,46 < 


CE QUI ЗЕ TRADUIT PAR : 


0,45 = P(p - 1,460(P) < P < р + ,460(P)) 


CE QUI REVIENT A DIRE QUE 45 % DES < FLECHES» É TOMBENT ENTRE p - 1,460(Р) 
ET p + 1,460 (P). 


MAINTENANT, NOUS POUVONS REGARDER LA CIBLE DE DERRIERE. ENCORE UN TOUR 
DE MANIVELLE ALGEBRIQUE ET ON OBTIENT : 


0,45 = P(P - 1,460(P) < p < P + 1,460(P)) 


ІСІ, ON DESSINE LES CERCLES 
AUTOUR DES POINTES 

DE FLECHE, AINSI ON TRACE 
DES INTERVALLES AUTOUR DE ῥ, 
ET ON DIT QUE 45 % D'ENTRE 
EUX COUVRENT p. 


MAIS IL Y A UN LÉGER PROBLÈME : ON NE CONNAÍT PAS EXACTEMENT LA TAILLE 
AUTOUR DE LA CIBLE, CAR SA LARGEUR EST UN MULTIPLE DE σ(β) QUI DÉPEND 


DE L'INCONNU p. 
Р ON ESQUIVE DONC LE PROBLËME 


MAINTENANT. EN UTILISANT L'ESTIMATION PONCTUELLE 
LES DISQUES ONT РАНА PLACE DE p POUR DETERMINER 
DES RAYONS DIFFERENTS L'ERREUR-TYPE ESTIMEE 


MAIS CE N'EST PAS OU ERREUR-STANDARD : 


GRAVE, VRAIMENT... 


C'EST SUFFISAMMENT РКОСНЕ... 
C'EST AU MIEUX... ET CELA PEUT 
SE JUSTIFIER THÉORIQUEMENT ! 
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MAINTENANT LA FORMULE DEVIENT : 
0,45 = Р(Р -1,462(Р) = p = P +1,465(P)) 


DE NOUVEAU, CETTE ÉQUATION DÉCRIT 
LA PROBABILITÉ QUE LA VRAIE VALEUR 
DE PROPORTION DE LA POPULATION SOIT 
DANS L'INTERVALLE ALÉATOIRE. 


CONTEMPLONS 
CELA UN MOMENT... 


A A A A 
[P -ιαδε(β), P +1,465(P)] 
SI L'ON PREND DES ÉCHANTILLONS REPETES, А 
LES INTERVALLES [р - ,465(Р), P + 1,465(Р)] 
COUVRIRONT p DANS 45 % DES CAS. 


MAINTENANT QUE LES CALCULS SONT FAITS, IL EST TEMPS DE PASSER AU... 


Second temps. LE TRAVAIL IL UTILISE NOTRE PREMIER TEMPS POUR 
DE DETECTIVE. DANS UN УКА! SONDAGE, CALCULER : 
HOLMES PREND UN SEUL ECHANTILLON 


DE 1000 VOTANTS, TROUVE ῥ = 0,55 a, М(0,55) x (0,45) 
5 1... ^ ጨጨጨ: 


Е P)= = 0,0157 
ET VEUT EN DEDUIRE Р. ( ) 1000 


ЕТ CONCLUT QU'AVEC 45 % DE CONFIANCE 
p EST DANS L'INTERVALLE : 


ይ +1468(P) 
= 0,550 + 1,46 x 0,0157 


= 0,550 + 0,031 


Я LA MARGE D'ERREUR ÉTAIT 
C'EST CE À QUOI FONT RÉFÉRENCE E 063 1, 8L CHA МЕНЕ 
| 


LES SONDAGES EN PARLANT DE « MARGE z QUOI QUE СЕ SOIT... 


D'ERREUR >. DANS NOTRE CAS, HOLMES ይ 
ል TROUVÉ QUE : 

| 
Un š 


w 


0,514 < p< 0,581 


EN D'AUTRES TERMES, p = 55 % AVEC 
3 % DE MARGE D'ERREUR (LES SONDAGES 
UTILISENT TYPIQUEMENT DES INTERVALLES 
À as %). 


па 


NOUS MONTRONS SUR CETTE PAGE LES RESULTATS D'UNE SIMULATION РАК ORDINATEUR DE ИМСТ 
ÉCHANTILLONS DE TAILLE [1 = 1000. LA SIMULATION UTILISE LA VALEUR [2 = 0,5. LA DISTRIBUTION 
D'ÉCHANTILLONNAGE DE Р (NORMALE DE MOYENNE р ЕТ ÉCART-TYPE © = V p(1 - p)/n) APPARAÍT 
EN HALT. EN DESSOUS, IL Y A LES INTERVALLES DE CONFIANCE А 45 % DE CHAQUE ÉCHANTILLON. 
UN SUR VINGT (SOIT 5 %) DE CES INTERVALLES NE COUVRIRONT PAS LA VALEUR p = 0,5. 


Af, 


dH PRESQUE RATÉ! 


ÉCHANTILLONS 


INTERVALLE DE CONFIANCE А 45 % POUR P 
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BIEN QUE 45 % 


DE CONFIANCE SUFFISENT Si CEST INFÉRIEUR, 
POUR LES SONDAGES MES SPONSORS FORTUNÉS 
DES JOURNAUX, N'INVESTIRONT PAS — JE VEUX DIRE 
| NE CONTRIBUERONT PAS – 
CE N'EST PAS ASSEZ 
À MA LUTTE POUR 
POUR LE SÉNATEUR LA LIBERTÉ 


ASTUTE. IL veur qq % | ET LA JUSTICE. 


ET UNE AUTRE FAÇON SERAIT D'AMÉLIORER 
LA VISÉE INITIALE DE L'ARCHER, DE MANIÈRE 
QUE LE TIR DES FLÈCHES SOIT PLUS GROUPÉ 

AU CENTRE DE LA MIRE. 


COMMENT AUGMENTER LA CONFIANCE ? 
FAR ANALOGIE AVEC LE TIR À L'ARC, DEUX 

MÉTHODES SONT POSSIBLES : LA PREMIÈRE 
CONSISTE A AUGMENTER LA TAILLE 
DU CERCLE TRACE... 


LA PREMIÈRE MÉTHODE REVIENT À ÉLARGIR L'INTERVALLE DE CONFIANCE. PLUS LA MARGE 
D'ERREUR EST IMPORTANTE, PLUS ON EST SÛR QUE LA VRAIE VALEUR p SERA DANS L'INTERVALLE. 


JE SUIS SÛR À 100 % QUE p 
EST ENTRE 0 ET 1! 


PEUT-ÊTRE EST-IL TEMPS DE VOIR EXACTEMENT 
COMMENT ON DÉTERMINE LES BORNES 
DE CES INTERVALLES DE CONFIANCE... 
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ICI, LE NOMBRE PERTINENT S'APPELLE 
@ (ALPHA). IL MESURE LA DIFFERENCE 
ENTRE LE SEUIL DE CONFIANCE VOULU 
ET LA CERTITUDE. PAR EXEMPLE, QUAND 
LE SEUIL DE CONFIANCE VAUT 95 %, 

OU 0,45, ALORS α = 0,05. ON PARLE 
DONC D'UN SEUIL (OU NIVEAU) 

DE CONFIANCE DE (1 - о). 


CHERCHER UN INTERVALLE DE CONFIANCE À (1 - ወ) 
REVIENT À REGARDER LA LOI NORMALE ET À CHERCHER 
LES POINTS + Z ENTRE LESQUELS L'AIRE VAUT (1 - ax). 


AIRE = 0,45 


ON ENLEVE LES QUEUES DE DISTRIBUTION 
AUX EXTREMITES DE LA COURBE, QUI ONT 
UNE AIRE TOTALE DE Q = 0/2 + 0/2. 


LE POINT Z,,/2, APPELÉ FRACTILE, 
EST LA VALEUR Z AU-DESSUS DE LAQUELLE 
L'AIRE EST DE 0/2 = 0,025. 


AIRE = 0,025 


| 


2 -25 
F(z) | 0,006 | 0,008 | oon | 0,014 | 0,018 


ON PEUT TROUVER Z,,/2 DIRECTEMENT 
AVEC LA TABLE DE LOI NORMALE 

DE LA PAGE 84. IL S'AGIT DU POINT 
AYANT CETTE PROPRIÉTÉ : 


P(Z = Ζα/α) = - 


EN PARTICULIER : 


P(z = 200) = 0,025 


VOICI UNE РЕПТЕ TABLE DE FRACTILES 


POUR DIFFERENTS SEUILS DE CONFIANCE : 


Роик СЕ SEUIL 
DE CONFIANCE, ALLEZ JUSQU'À 
TANT D'ÉCARTS-TYPES. 


ОААН... 
JUSTE LA 


ος 0,4 0,45 0,44 À RÉPONSE S'IL 
"ት VOUS PLAÎT... 

02 01. 0,05 0,01 

0,1 0,05 0,025 0,005 


1,28 1,64 1,46 2,58 


POUR FAIRE UN INTERVALLE DE CONFIANCE À 44 %, ON UTILISE CETTE TABLE POUR ÉCRIRE : 


0,44 = P(p -2,585(P) < p < P + 2,5#5(Р)) 
QUE NOUS ABREGEONS : 


рє р +2,585(Р) 


V 955 х 0,45 
--ᾱ Mines 
p Є 0,55 + 2,58 1000 


p € 0,55 + 0,041 


SUPER! 
JE SUIS ENCORE 
AU-DESSUS 
DE 50 %! 


AVEC 44 % DE CONFIANCE. 


0,50 0,51 0,55 0,54 


AUGMENTER LES INTERVALLES EST UNE FACON D'AUGMENTER LA CONFIANCE 

DANS SES RESULTATS. COMME NOUS L'AVONS DIT, UNE AUTRE FACON SERAIT DE VISER 
PLUS JUSTE AVEC NOS FLÈCHES. ΘΙ NOUS SAVIONS QUE 95 % DE NOS FLECHES 

SONT A 1 CM DE LA CIBLE, NOS ESTIMATIONS POURRAIENT ETRE PLUS AFFÜTÉES. 


COMMENT POUVONS-NOUS FAIRE ? EN AUGMENTANT LA TAILLE DE L'ÉCHANTILLON ! 
LA LARGEUR DE L'INTERVALLE DE CONFIANCE DÉPEND DE CETTE TAILLE : L'INTERVALLE 


EST DE LA FORME ῥ + E OÙ L'ERREUR Е EST DONNÉE PAR : 


DISTRIBUTION DE Р 


PLUS п EST GRAND, PLUS 
L'ERREUR EST PETITE (PAR EXEMPLE 
QUADRUPLER п RÉDUIT DE MOITIÉ 
LA LARGEUR DE L'INTERVALLE). 


ASTUTE DEMANDE À HOLMES UNE PETITE ERREUR 
AVEC UNE GRANDE CONFIANCE — DISONS 94 % 

DE CONFIANCE AVEC E < + 0,01. HOLMES CALCULE 
DONC п: 


FATRON, SORTEZ 
VOTRE PORTEFEUILLE, 
J'Al LA RÉPONSE! 


(Ζωα) p'( - p*) 
hr muse 
ICI p EST UNE PRÉVISION DE LA VRAIE 


PROPORTION р (RAPPELEZ-VOUS QUE CELA 
SE FAIT AVANT LA MESURE D'ÉCHANTILLON ). 
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ЕМ PRENANT ИМЕ PREVISION PRUDENTE 5000 
ОЕ p = 0,5, HOLMES TROUVE : JE PEUX FAIRE 


_ (2,58 (0,5) CE CALCUL! 
(0,01) 


_ (6,65)(0,26) 
(0,0001) 


= 16 641 


1000 VOTANTS DONNAIENT UNE ERREUR 
DE 3 % AVEC 45 % DE CONFIANCE. 
POUR AVOIR 1 % D'ERREUR AVEC 44 % 
DE CONFIANCE, HOLMES DOIT SONDER 
16641 VOTANTS. 


ILS FONT ALORS LE SONDAGE 
ET VONT À L'ÉLECTION AVEC 
44 % DE CONFIANCE. 


D'UN AUTRE CÔTÉ, 
COMMENT NE PAS MISER 

SUR LA TRANQUILLITÉ 
D'ESPRIT? 


MAIS... TOUTES CES PROBABILITÉS SONT UTILES AVANT LES ÉLECTIONS. 
APRÈS L'ÉLECTION, LE SÉNATEUR EST SOIT 100 % ÉLU, SOIT 100 % PERDANT... 
ET MALGRÉ TOUT, LE SÉNATEUR ASTUTE PERD L'ÉLECTION. 


QUE S'EST-IL 


IL S'EST PASSE QUE LES POLITICIENS NE SONT PAS ÉLUS AVEC LES SONDAGES! 


—— M 


SCANDALEUX! 
JE PASSERAIS BIEN 
UNE LOI CONTRE CELA, 


SI J'ÉTAIS ENCORE 
AU SÉNAT! 


QUELQUES PROBLEMES DES SONDAGES PAR RAPPORT AUX ELECTIONS : 


MEME 91 LE SONDAGE BIAIS DE NON-REPONSE. 


В N'EST PAS BIAISE, 


LES BIAIS DES REPONSES. 


LES VOTANTS PEUVENT LE VOTANT PEUT 
MENTIR AU SONDEUR L'URNE NE COMPTE NE PAS ETRE CHEZ LUI 
OU CHANGER D'AVIS QUE LES VOTANTS PRESENTS OU REFUSER DE PRENDRE PART 


LE JOUR DE L'ÉLECTION. DANS L'ISOLOIR. 


J'AIME LES DEUX GRANDS PARTIS 
ET J'AIMERAIS JUSTE POUVOIR 33 
VOTER POUR LES DEUX. MAIS L'ÉLECTION N'ÉTAIT 


PAS НЕК? 


IL N'Y A AUCUN MOYEN 
POUR ИМ SONDEUR D'ENTRER 
DANS LA TÉTE D'UN VOTANT, 
DE SAVOIR S'IL VA VOTER, 

S'IL MENT Ой S'IL VA CHANGER 
D'AVIS AVANT L'ÉLECTION. 

DE GRANDS ÉCHANTILLONS 
NE PEUVENT PAS RÉDUIRE 

CE TYPE D'ERREUR. 


LA PROCHAINE FOIS, 
ENGAGEZ UN MÉDIUM! 
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À LA PLACE, 
COMME CES ERREURS PEUVENT ETRE f ON UTILISE CETTE 
IMPORTANTES, ON GAGNE RAREMENT ፡ ዘ PRESSE А BIAIS! 
A PRENDRE DE TRES GRANDS 
ECHANTILLONS. 


DANS ΟΙΝα ELECTIONS PRESIDENTIELLES CONSECUTIVES, LES SONDAGES GALLUP ONT INTERVIEWE 
MOINS DE 4000 VOTANTS POUR CHAQUE ELECTION. POURTANT DANS CES CINQ ELECTIONS, 
L'ERREUR DE PREDICTION DU RÉSULTAT CALCULÉ PAR GALLUP ЕТАП DE MOINS DE 2 %. 


UNE PRESSE 
A BIAIS 
INDUSTRIELLE. 


CE SUCCES EST ዐዐ À L'UTILISATION D'ESTIMATEURS QUI PRENNENT ΕΝ COMPTE LES NON-REPONSES 
ET FILTRENT LES ELECTEURS ELIGIBLES QUI N'IRONT VRAISEMBLABLEMENT PAS VOTER. 


à EN RÉSUMÉ, PROPORTION ESTIMÉE 
À PART ላ ZOMBIELAND, \ = VRAIE PROPORTION + BIAIS + ERREUR 
ONA js А CRAINDRE | ALÉATOIRE D'ÉCHANTILLON. MEME LES SONDEURS 
FH ONT DES RESSOURCES LIMITÉES. ILS CHOISISSENT 
JUDICIEUSEMENT DE DÉPENSER DE L'ARGENT POUR 
RÉDUIRE LES BIAIS PLUTÓT QUE D'AUGMENTER 
LE NOMBRE DE VOTANTS SONDÉS A PLUS DE 4000. 
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Intervalle de confiance 
pour ይ 


JUSQU'À PRESENT, NOUS AVONS 
EXAMINE LES INTERVALLES 
DE CONFIANCE POUR UNE PROPORTION р 


D'UNE POPULATION. LE MEME TYPE 
DE RAISONNEMENT FONCTIONNE 
POUR UNE MOYENNE μ, DE POPULATION. 


DANS LE CHAPITRE PRECEDENT, NOUS AVONS VU PAGE 105 QUE LA DISTRIBUTION 
D'ECHANTILLONNAGE DES MOYENNES X EST PRESQUE NORMALE, CENTREE 

SUR LA MOYENNE DE POPULATION [u ET D'ÉCART-TYPE σ/νπ OÙ σ EST L'ÉCART-TYPE 
DE LA POPULATION. AINSI, 51 П EST GRAND : 


0,45 = Р(-1,46 < z < 1,46) ЕМ TOURNANT 
LA MEME MANIVELLE 
ALGÉBRIQUE... 
= P(- 1,46 < < 1,46) 


ዐ 


А NOUVEAU, NE CONNAISSANT PAS С, 
ON REMPLACE σ PAR 5, L'ÉCART-TYPE 
ECHANTILLON, ET ON OBTIENT : 


X-u 
0,45 == P(- 1,46 < < 1,46 
— Hen 


LE TERME s/Vn EST APPELÉ L'ERREUR-TYPE ESTIMÉE ET SE NOTE #(Х). 
ON EN CONCLUT QUE : 


0,45 = P(X -1,46а(Х) < и < X +1,465(Х)) 


COMME PRECEDEMMENT, NOUS AVONS 
TROUVE QUE L'INTERVALLE ALEATOIRE 


X +1468(X) 


RECOUVRE LA VRAIE MOYENNE u 

AVEC UNE PROBABILITE DE 0,45... 

DONC MAINTENANT ON PEUT FAIRE APPEL 
A SHERLOCK HOLMES POUR EFFECTUER 
L'INFÉRENCE STATISTIQUE FONDÉE 
SUR UN SEUL ÉCHANTILLON DE TAILLE n 
ET DE MOYENNE Х. 


LUI ET NOUS SOMMES SÛRS À 45 % QUE LA MOYENNE |. EST DANS L'INTERVALLE 
x +1,465(Х). 


PARBLEU, 
PLUS LE TEMPS PASSE, 
PLUS JE SUIS CONFIANT! 


COMME AUPARAVANT, POUR UN SEUIL 
DE CONFIANCE 1 - 0, NOUS REMPLACONS 
1,46 РАК 22. 


АКЕТ-а 


ÇA À ГАК 
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AIRE 0/2 


L 


REVISITONS LES DONNEES DES ETUDIANTS 
DU CHAPITRE 2. SUPPOSONS QUE NOS N = 42 
ETUDIANTS REPRESENTENT UN ECHANTILLON 
ALEATOIRE SIMPLE DE L'ENSEMBLE DES ETUDIANTS 
DE PENN STATE. 


LA MOYENNE D'ÉCHANTILLON X ÉTAIT 

DE 145,20 LIVRES ET L'ÉCART-TYPE 
ECHANTILLON 9 ЕТАП DE 23,7. 

CELA FAIT UNE ERREUR-TYPE ESTIMEE DE : 


--. መንያ 
SX) = = = 2,47 
oo Vaz 


VITE QUE 
QUELQU'UN 


ET NOUS SOMMES CONFIANTS A 45 % 
QUE LE POIDS MOYEN DE TOUS 

LES ETUDIANTS DE PENN STATE 

EST DANS L'INTERVALLE : 


x +1,465(Х) 
= 145,2 + (1,46)(2,47) 


= 145,2 + 4,80 LIVRES (65,4 + 2,2 Ка) 


EN RÉSUMÉ : POUR UN ÉCHANTILLON ALÉATOIRE SIMPLE DE GRANDE TAILLE, ИМТЕКУАЦ Е DE CONFIANCE 
А1- О EST: 


MOYENNE DE POPULATION, ይ PROPORTION DE POPULATION, p 
U € κ 2 zy25(X) рер+ z ሠ 
ой ой 
Dn. А „ра -Р) 
s(X) = — 5(Р)-|---- 
Уп п 


LA LARGEUR I DEUX T MAINTENANT SÉNATEUR, 
INTERVALLES EST CONTR QUE DIRIEZ-VOUS 


PAR LE SEUIL DE CONFIANCE D'UN TRAVAIL DANS 
1- © ET LA TAILLE MON ENTREPRISE 
D'ÉCHANTILLON П. DE SONDAGE ? 
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t de Student 
(encore!) 


COMME NOUS L'AVONS VU DANS LE CHAPITRE 6, 
LA STATISTIQUE 


Х-и 


5(Х) 


EST PRESQUE NORMALE LORSQUE LA TAILLE 
D'ECHANTILLON EST GRANDE. POUR DES PETITS 
ECHANTILLONS (n = 5, 10, 25...) CE N'EST PLUS 
LE CAS ET NOUS DEVONS UTILISER LE Е DE STUDENT. 


REGARDONS LE t DE STUDENT D'UN PEU PLUS PRES. NOUS AVONS MENTIONNE QUE SA DISTRIBUTION 
EST PLUS ETALEE QU'UNE DISTRIBUTION NORMALE, ET QUE LA DISPERSION DEPEND DE LA TAILLE 
D'ÉCHANTILLON. 


NORMALE STANDARD 
t, GRAND ÉCHANTILLON 


/ 


t, PETIT ECHANTILLON 


/ 


L'IDÉE GÉNÉRALE : SOIT П 
DES OBSERVATIONS DONNÉES 
#ቱ Χρ... “ዙ ON UTILISE ИМ DEGRÉ 
POUR LE CALCUL DE %, LAISSANT n - 1 
ELEMENTS INDEPENDANTS D'INFORMATION. 


LA DECOUVERTE DE GOSSET FUT 
DE QUANTIFIER CETTE RELATION. 
SI n EST LA TAILLE D'ÉCHANTILLON, 
IL DÉFINIT П - 1 COMME LE NOMBRE 
DE degrés de liberté 

DE L'ECHANTILLON. 


GOSSET CALCULA DES TABLES ኢር. 

DE LA DISTRIBUTION Е POUR DIFFÉRENTES UNE BELLE 
DISTRIBUTION 
АРРКОСНЕЕ! 


TAILLES D'ÉCHANTILLON, ЕТ DONC DIFFÉRENTS 
DEGRES DE LIBERTE. RAPPELONS QUE PLUS 
LES DEGRES DE LIBERTE AUGMENTENT, 
PLUS LE t DE STUDENT TEND VERS UNE LOI 
NORMALE STANDARD. 


CONNAISSANT LA TAILLE D'ÉCHANTILLON Π, ON PREND LE t DE STUDENT 
AVEC n - 1 DEGRES DE LIBERTE. 


COMME POUR LA LOI 

NORMALE, NOUS AVONS AIRE = 0,45 
UN SEUIL DE CONFIANCE 

А 45 % ЕМ CHERCHANT 

LE FRACTILE Έρως AU-DELÀ 

DUQUEL L'AIRE SOUS 

LA COURBE EST DE 0,025, — - toozs 


COMME LA COURBE EST PLUS 
APLATIE QU'UNE NORMALE, t0,025 
EST PLUS LOIN QUE 20,025. 


POUR UN INTERVALLE DE CONFIANCE А (1 - α), ON TROUVE LE FRACTILE t,,/, 
TEL QUE P(t = t,72) = 0/2. VOICI UNE TABLE RÉDUITE DE FRACTILES 
POUR LE Е DE STUDENT. 


1-а 08 04 0,45 0,44 
а 0,2 οἱ 0,05 0,01 

0,025 0,005 

DEGRES 1 3,08 6,31 12,71 63,66 
DE LIBERTÉ 10 137 1,81 223 3,7 
30 1,81 1,70 2,04 2,75 

100 1,24 1,66 1,48 2,63 


oo 1,28 1,64 1436 2,58 
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CHAQUE COLONNE REPRESENTE UN SEUIL DE CONFIANCE FIXE EN FONCTION D'UN NOMBRE 
CROISSANT DE DEGRES DE LIBERTE. PLUS LE NOMBRE DE DEGRES DE LIBERTE AUGMENTE, 
PLUS LE FRACTILE TEND VERS Z,,/2, LE FRACTILE DE LA LOI NORMALE. 


LA LARGEUR DE NOTRE INTERVALLE 
DE CONFIANCE SE DÉDUIT 
DE LA DÉFINITION DE t. 


NOTE : 
X- u C'EST EXACTEMENT 


— COMME POUR LES 

5 GRANDS ÉCHANTILLONS 
MAIS AVEC t 
AU LIEU DE Z! 


NOUS EN DÉDUISONS : SI L'ÉCHANTILLON 
EST DE TAILLE Π ET DE MOYENNE %, 
ALORS NOUS SOMMES SÛRS À (1 - a.) 
QUE LA MOYENNE DE POPULATION μ. 
APPARTIENT А L'INTERVALLE : 


MÉMORISE 
BIEN CELA... 


u € x + ሂዖ;#(#) 


où s(X) = s/Vn, ET tu 
EST LE FRACTILE DU t DE STUDENT 
AVEC n - 1 DEGRES DE LIBERTE. 


NOTE: 


POUR ETRE PLUS RIGOUREUX, L'UTILISATION 
DU t DE STUDENT DEPENDAIT 

DE L'HYPOTHESE QUE LA DISTRIBUTION 

DE LA POPULATION ETAIT NORMALE. 


DANS LA PRATIQUE, LES INTERVALLES 

DE CONFIANCE BASES SUR LE t DE STUDENT 
RESTENT RELATIVEMENT VALABLES, MEME 

SI LA POPULATION N'EST QU'APPROXIMATIVEMENT 
EN FORME DE CLOCHE. 


Exemple : L'ENTREPRISE CAMELEON AUTOMOBILES DOIT EFFECTUER DES CRASH-TESTS 
SUR SES VOITURES AFIN D'ÉVALUER LE COÛT MOYEN DE RÉPARATION D'UNE COLLISION FRONTALE 
À 16 km/h. C'EST TRÈS COÜTEUX! ELLE DÉCIDE DONC DE FAIRE UN TEST SUR SEULEMENT 

CINQ CAMÉLÉON. 


POURQUOI N'Y A-T-IL 
PAS PLUS DE VOITURES 
AVEC DES NOMS 


QUI SAIT, 


HUM! ÇA AMÉLIORE 
LE DESIGN. 


LA MOYENNE D'ÉCHANTILLON EST : 
% = 540 Е 
L'ÉCART-TYPE EST : 


s = 244 Е 


ON PEUT VERIFIER 5 A LA CALCULATRICE. C'EST : 


2 ((1s0 - 840). + (400 - 540) + (720 - 540) + (500 - 540) + (aso - 540)) 


OÜ POUVONS-NOUS DONC PLACER LA MOYENNE AVEC 45 % DE CONFIANCE ? 
NOUS TROUVONS NOTRE FRACTILE ἔρως AVEC 4 DEGRÉS DE LIBERTÉ, QUI VAUT 2,78. 


0,8 0,4 0,45 0,44 


0,2 οἱ 0,05 0,01 
0,05 0,025 0,005 


DEGRES 
DE LIBERTE 


3,08 6,8! 12,71 63,66 
1,84 2,42 43 4,42 
1,64 2,35 3,8 5,84 
1,53 213 2,78 4,6 
1,48 2,02 2,57 4,03 


ET ON LE PLONGE DANS : 


- 5 
9:26 5. = 


Уп 


u € 640 + 2,78 234 
V5 


u E 540 + 372 


TOUT СЕ QU'ON PEUT AFFIRMER AVEC 45 % DE CONFIANCE, C'EST QUE LES DOMMAGES 
MOYENS SERONT ENTRE 168 ЕТ 912 €. 


MAIS JE SUIS CONFIANT 
À 0 % QUE CELA COÛTERA 
EXACTEMENT 8,44 €... 


L'ENTREPRISE PEUT SOIT 
S'EN SATISFAIRE, SOIT FAIRE 
D'AUTRES TESTS. 


POUR CALCULER CET INTERVALLE DE CONFIANCE EN UTILISANT LE Е DE STUDENT, 

NOUS AVONS FAIT UNE HYPOTHÈSE IMPLICITE. NOUS AVONS SUPPOSÉ QUE LES COÛTS 
DE RÉPARATION ETAIENT APPROXIMATIVEMENT DISTRIBUÉS NORMALEMENT, AINSI 

61 ON CRASHE 1000 CAMELEON, L'HISTOGRAMME DES DOMMAGES DOIT ÊTRE SYMÉTRIQUE 
ET EN FORME DE MONTICULE. ON МЕ PEUT PAS DEDUIRE CELA DE CET ÉCHANTILLON 

DE SEULEMENT 5 VOITURES... MAIS PEUT-ÉTRE QUE DES ANNÉES D'EXPÉRIENCE AVEC 
D'ANCIENS MODÈLES ONT DÉJÀ FOURNI DES HISTOGRAMMES NORMALEMENT DISTRIBUÉS 
DE DOMMAGE SUR LES PARTIES AVANT. CE TYPE D'INFORMATION JUSTIFIERAIT 

NOTRE UTILISATION DU t DE STUDENT. 


LA QUEUE REPOUSSE 
D'ELLE-MÉME. 
C'EST UNE DES OPTIONS 
DES CAMELEON. 


EN RÉSUMÉ (!), ` redes 
NOUS DISPOSONS \ UNE TABLE А t, EN LISANT 
MAINTENANT DE TROIS DES TABLES DE 2... 
METHODES POUR TROUVER = - вади ишин, 
DES INTERVALLES 

DE CONFIANCE. POUR 

DES PROPORTIONS COMME 

POUR DES MOYENNES 

AVEC DE GRANDS 

ECHANTILLONS, 

NOUS CHERCHONS Z,,/2 

DANS UNE TABLE NORMALE, 

POUR DES MOYENNES 

DE PETITS ECHANTILLONS, 

DISONS n < 30, 

ON TROUVE t,,/2 

DANS LA TABLE 

DE STUDENT. 


DANS TOUS LES CAS, LA LARGEUR DE L'INTERVALLE EST CE FRACTILE MULTIPLIÉ 
PAR L'ERREUR-TYPE ESTIMEE. 


Zx (P) zo, X) t,,,9(X) 


ET TOUTES CES ERREURS-TYPES SONT PROPORTIONNELLES AU NOMBRE MAGIQUE. 
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Chapitre 8 


Tests d’hypothèses 


NOUS ENTRONS MAINTENANT DANS UN NOUVEAU DOMAINE. 
LES GOUVERNEMENTS, LES ENTREPRISES ET LES SCIENCES DURES 
ET MOLLES UTILISENT TOUS ET ABUSENT SOUVENT DE CES TESTS 

DE SIGNIFICATION. IL S'AGIT DE REPONDRE A LA QUESTION : 

«CES OBSERVATIONS ONT-ELLES RÉELLEMENT EU LIEU 
PAR HASARD ? » 


ከ. — 
— 
QUEL TYPE MALCHANCEUX, 
WATSON... 
APPAREMMENT IL A ETE VICTIME 
DE SIX ACCIDENTS... 


NOUS COMMENÇONS 

AVEC UN EXEMPLE PROVENANT 

DU DOMAINE JURIDIQUE : PLUSIEURS 
JUGEMENTS ONT ÉTÉ REMIS EN CAUSE 
DANS LE SUD DES ÉTATS-UNIS ENTRE 
1460 ET 1480. DES TÉMOINS EXPERTS 
PRÉSENTÈRENT DES CAS DE BIAIS 
RACIAUX DANS LA SÉLECTION 


DES JURYS. 


LES PANELS DE JURÉS SONT THEORIQUEMENT COMPOSÉS ALÉATOIREMENT À PARTIR D'UNE LISTE 

DE CITOYENS ÉLIGIBLES. CEPENDANT, DANS LES ÉTATS DU SUD DES ANNÉES 1450 ET 1460, IL Y AVAIT 
PEU D'AFRO-AMÉRICAINS DANS CES JURYS. CERTAINS AVOCATS CONTESTÈRENT DONC LE VERDICT. 
EN APPEL, UN TÉMOIN EXPERT EN STATISTIQUES FOURNIT CETTE PREUVE : 


4) 50 % DE CITOYENS ELIGIBLES 
ETAIENT AFRO-AMERICAINS. & (ее ዴ 5 e ዴ ይደ 
2) SUR UN PANEL DE 80 JURÉS 


POTENTIELS, SEULEMENT QUATRE 
ETAIENT AFRO-AMERICAINS. 


CELA POUVAIT-IL ETRE LE RESULTAT 
D'UN PUR HASARD ? 
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POUR SIMPLIFIER LA DISCUSSION, SUPPOSONS 
QUE LA SELECTION PARMI LES JURES POTENTIELS 
SOIT ALEATOIRE. ALORS, LE NOMBRE 
D'AFRO-AMÉRICAINS SUR UN PANEL 

DE 80 PERSONNES SERA UNE VARIABLE 
ALÉATOIRE X AVEC П = 80 TIRAGES ET p = 1/2. 


80 ΕΘΘΑΙΘ 
DE BERNOULLI, 
CHACUN 


AINSI, LA PROBABILITE D'OBTENIR UN JURY COMME LA PROBABILITE EST INFINITESIMALE, 

DE MOINS DE QUATRE AFRO-AMERICAINS LE PANEL EN QUESTION AVEC SEULEMENT QUATRE 
EST P(X < 4), QUI S'AVÈRE ETRE DE L'ORDRE NOIRS AMERICAINS FOURNIT UNE PREUVE 

DE 0,0000000000000000014 (!). SOLIDE CONTRE L'HYPOTHÈSE D'UNE SÉLECTION 
ALEATOIRE. 


DU HASARD ? 
JE VOUS 
LE DEMANDE ! 


C'EST UN NOMBRE 
PETIT OU GRAND ? 


ХО a LL o 0/0 C'EST UN 
ሽሮ ር] À “iP ARGUMENT 
Рака! ИСК DÉDUCTIF 


TT Ж? DE PROBABILITÉ 
` ` 


POUR PORTER L'ESTOCADE, LE STATISTICIEN FAIT 
REMARQUER QUE CETTE PROBABILITÉ EST PLUS 
FAIBLE QUE CELLE D'OBTENIR TROIS QUINTES 
FLUSH ROYALES CONSÉCUTIVES 

AU РОКЕК. 


LE JUGE REJETTE DONC L'HYPOTHËSE 
D'UNE SELECTION ALEATOIRE. 


Si J'ÉTAIS A CETTE TABLE 
DE POKER, JE SORTIRAIS 
| MON АКМЕ APRES 

>=“: 4 i = N LA SECONDE QUINTE FLUSH... 


(ET IL RETIRA SA REMARQUE 
DE L'ENREGISTREMENT!) 


SUIVONS LE MEME PROCEDE QUE PRECEDEMMENT 
POUR DEVELOPPER LES QUATRE ETAPES 
FORMELLES D'UN TEST D'HYPOTHESE STATISTIQUE. 


Étape I : FORMULER TOUTES DANS L'AFFAIRE DE JUSTICE, Ho 

LES HYPOTHÈSES. STIPULE QUE LE JURY ÉTAIT CHOISI 
AU HASARD DANS LA POPULATION 

Ho L'HYPOTHÈSE NULLE EST GLOBALE. LES AFRO-AMÉRICAINS 

GÉNÉRALEMENT QUE LES OBSERVATIONS ONT UNE PROBABILITÉ p = 0,50 

SONT STRICTEMENT LE RÉSULTAT D'ÊTRE CHOISIS. 

pu HASARD. 


H4 STIPULE QUE LES AFRO-AMÉRICAINS 


H. L'HYPOTHÈSE ALTERNATIVE SONT MOINS SÉLECTIONNÉS 
INDIQUE QU'IL Y A UN EFFET RÉEL, DANS LES JURYS QUE LEUR PROPORTION 


QUE LES OBSERVATIONS SONT LE RÉSULTAT | PANS LA POPULATION : p < 0,50. 


DE CET EFFET ET D'UNE COMPOSANTE 
τοι... 
FAS TOI... TOI... 


ALÉATOIRE. 

Étape 2 : LE TEST STATISTIQUE. ICI, LA STATISTIQUE DE TEST EST 
IDENTIFIER LA STATISTIQUE QUI FOURNIRA LA VARIABLE ALÉATOIRE BINOMIALE X 
DES PREUVES CONTRE L'HYPOTHESE NULLE. | AVEC p = 0,50 ET n = 80. 


COMME 
80 LANCERS 
DE PIECE! 


Étape 3 : VALEUR P : UNE CONSTATATION 
PROBABILISTE POUR КЕРОМОКЕ А LA QUESTION : 
SI L'HYPOTHÈSE NULLE EST VRAIE, ALORS QUELLE 
EST LA PROBABILITÉ D'OBSERVER UNE STATISTIQUE 
DE TEST AU MOINS AUSSI EXTREME QUE CELLE 
OBSERVÉE ? 


ማሚ 


PLUS LA VALEUR P 
EST FAIBLE, 
MOINS L'HYPOTHESE 
NULLE EST CREDIBLE. 


Etape 4 : COMPARER LA VALEUR РА UN SEUIL 
DE SIGNIFICATION, α. 

Qt AGIT COMME UN SEUIL LIMITE EN DESSOUS 
DUQUEL NOUS NOUS ACCORDONS À DIRE 

QUE L'EFFET EST STATISTIQUEMENT SIGNIFICATIF. 
AUTREMENT DIT, 9! 


Fe 


ALORS NOUS REJETONS L'HYPOTHESE NULLE 


Ho ET DÉCLARONS QUE QUELQUE CHOSE D'AUTRE 
A EU LIEU. 


DANS NOTRE EXEMPLE, LA VALEUR F VAUT 
P(X = 4 | p = 0,50 ET n = 80) 


= 1,4 x 10% 


ON A CALCULE LA VALEUR P AVEC LES MOYENS 
MODERNES EN UTILISANT UN LOGICIEL 
DE STATISTIQUES. 


DANS 
LES ANNEES 1450, 
ON UTILISAIT DES 
CALCULATEURS 
ATTELÉS ! 


α EST SOUVENT PRIS A 0,05 OU 0,01. 

DANS LE CAS DU JURY, ET POUR L'EFFET 
DRAMATIQUE, LE STATISTICIEN A FAIT ALLUSION 
A UN α ABSURDEMENT FAIBLE DE 3,6 x 107, 
QUI REPRESENTE LES CHANCES D'AVOIR TROIS 
QUINTES FLUSH ROYALES DE SUITE. 


UNE VALEUR P 
QUE MEME UN JUGE 
PEUT COMPRENDRE! 
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DANS LES TRAVAUX SCIENTIFIQUES, ON UTILISE SOUVENT UN SEUIL ΕΙΧΕ DE α EGAL 

À 0,05 OU 0,01. CES VALEURS SONT UN VESTIGE DE L'ËRE PRÉ-ORDINATEUR OÜ L'ON 
DEVAIT SE REFERER À DES TABLES IMPRIMÉES POUR TROUVER DES VALEURS CRITIQUES 
PRESELECTIONNEES. POURTANT DE NOS JOURS, LES JOURNAUX SCIENTIFIQUES PUBLIENT 
SEULEMENT DES RESULTATS LORSQUE LA VALEUR P EST < 0,05. 


BIEN QU'UNE FOIS SUR 20, 
LES RESULTATS 
AVEC UN SEUIL 

DE SIGNIFICATION P < 0,05 
SOIENT FAUX ! 


DANS LES COURS DE JUSTICE, UNE QUINTE FLUSH ROYALE... 
LE STANDARD EST PLUS FLEXIBLE... 
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Test de signification 
de proportion 

pour de GRANDS 
ECHANTILLONS 


L'EXEMPLE DU JURY EST UN CAS PARTICULIER 

D'UN PROBLËME PLUS GENERAL OÜ L'HYPOTHESE NULLE 
EST DE LA FORME p = p, ET OU p, EST UNE CERTAINE 
PROBABILITE (DANS NOTRE CAS 0,5). MAINTENANT, 
ETUDIONS LE CAS GENERAL. 

ΤΕΘΤΟΝΘ L'HYPOTHÈSE p = p,. 


COMME D'HABITUDE, NOUS SUPPOSONS QUE NOUS AVONS UNE ENORME POPULATION... 
NOUS OBSERVONS UN GRAND ECHANTILLON... ET NOUS TROUVONS QU'UNE PROPORTION 
DE L'ÉCHANTILLON VERIFIE UNE PROPRIÉTÉ. 


À PARTIR DE CETTE OBSERVATION, NOUS VOULONS SAVOIR SI LA VRAIE PROPORTION 
DE POPULATION EST (PAR EXEMPLE) PLUS GRANDE QU'UNE VALEUR p». PAR EXEMPLE, 
LE SÉNATEUR ASTUTE QUI А TROUVÉ = 0,55 VEUT SAVOIR SI p > 0,5, CE QUI LUI 
GARANTIRAIT LA MAJORITÉ. 
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Étape I 
L'HYPOTHESE NULLE EST : 
Ho: p= р, 


L'HYPOTHESE ALTERNATIVE DEPEND 
DE LA DIRECTION DE L'EFFET 
CONSIDÉRÉ. DANS LE CAS 

DU SENATEUR ASTUTE : 


Ha: p> р, 


MAIS DANS D'AUTRES CAS, 
L'HYPOTHESE ALTERNATIVE PEUT ETRE : 


H,: p < p. 
OU 
H,:p* р, 


FAR EXEMPLE, DANS LE CAS 
DE LA SÉLECTION DU JURY, 
L'HYPOTHËSE ALTERNATIVE ÉTAIT : 


H,:p<0,5 


MAIS D'AUTRES FOIS, NOUS VOULONS 

SAVOIR SI P EST DIFFÉRENT OU NON 

D'UNE VALEUR. FAR EXEMPLE, 

SI ON TESTE L'HONNÉTETÉ D'UN LANCER 

DE PIECE, L'HYPOTHESE ALTERNATIVE 

EST : 
H 


a 


:р# 0,5 


MAIS NOUS N'AVONS AUCUNE IDEE А PRIORI 
SI LE BIAIS EST SUR LE COTE FACE OU PILE. 


Etape 2 


LA STATISTIQUE DE TEST 
EST: 
(Ё - Po) 
2066 = — 
- pot - ро)/п 


QUI MESURE L'ÉLOIGNEMENT DE Р РАК 
RAPPORT А pç. AVEC L'HYPOTHESE NULLE, 
Zoes A UNE DISTRIBUTION NORMALE 
STANDARD. 

Étape 3 


LA VALEUR P DÉPEND DU TYPE 
DE L'HYPOTHESE ALTERNATIVE : 


A) Tesr UNILATÉRAL À DROITE, H, : p > ደ 
UTILISE LA VALEUR P DÉFINIE PAR Р(2 > Zoss). 


0 Zogs 


В) тест UNILATÉRAL À GAUCHE, H, : p < p, 
UTILISE LA VALEUR P DÉFINIE PAR F(Z < Zoss). 


20в6 0 


С) TEST BILATÉRAL À GAUCHE, H, : p # р, 
UTILISE LA VALEUR Р DÉFINIE PAR P(|z| > |zssl). 


u [23 0 [23 


DANS LE CAS DU SÉNATEUR ASTUTE : 


1) Les HYPOTHÈSES SONT : LE SÉNATEUR REJETTE DONC L'HYPOTHÈSE 
NULLE, ET LUI ET SON ÉQUIPE PEUVENT 
Ho: p = 0,5 ÊTRE SÛRS D'ÊTRE EN TÊTE. 


H, : p> 0,5 


2) LA STATISTIQUE DE TEST EST : 


VOUS POUVEZ CONTRIBUER 
MAINTENANT... 


(0,55 - 0,50) 


24а = ———— = 8,16 
085 — /(0,50)(0,50)/1 000 


ን LA VALEUR PEST: 


ΡΖ > Zoss) = P(z = 3,16) = 0,0008 


4) ÉTANT CONSERVATEUR, ASTUTE PREND 
UN SEUIL DE SIGNIFICATION α DE 0,01 
ET IL OBSERVE QUE : 


P(z > zoss) = 0,0008 < а: 


ALORS VOUS REJETEZ Ηρ! 
#72 


NDT : LORSQUE L'HYPOTHESE ALTERNATIVE 

EST UNE INEGALITE (DU TYPE Ho : p < ро), 
CERTAINS STATISTICIENS PRENNENT COMME 
HYPOTHÈSE NULLE LE CONTRAIRE DE L'HYPOTHÈSE 
ALTERNATIVE (SOIT Но: p = po). CELA NE CHANGE 
EN RIEN L'ANALYSE CAR C'EST L'HYPOTHESE 
ALTERNATIVE QUI DÉFINIT LE CRITERE DE REJET 

OU NON. 


Test де МОУЕММЕ de population 
pour de GRANDS ECHANTILLONS 


VOICI MAINTENANT UN TEST DE SIGNIFICATION 
QUI PEUT ETRE UTILISE POUR UN CONTRÓLE 
PAR ÉCHANTILLONNAGE, UNE APPLICATION 


INDUSTRIELLE IMPORTANTE. 


LA SOCIÉTÉ NEW AGE CÉRÉALES PRETEND 
QUE LE POIDS MOYEN DE SES BOÎTES 

DE CÉRÉALES EST D'AU MOINS 16 oz 

(453 GRAMMES). L'ENTREPRISE L'EPICERIE 
AUTHENTIQUE RENVERRA TOUTE LIVRAISON 
SI LE POIDS MOYEN EST INFÉRIEUR. 


MAIS BIEN SOR L'EPICERIE N'A AUCUNE 
INTENTION DE PESER CHACUNE DES BOÍTES 
EXPEDIEES. SES EMPLOYES SE CONTENTERONT 
D'UTILISER LES STATISTIQUES ! 


LES STATISTIQUES 
C'EST LA MÉTHODE FACILE, 
VOUS VOUS SOUVENEZ ? 


DONNE-MOI LE LAIT 


TOUT D'ABORD, ILS CHOISISSENT 
DE CHÈVRE NON PASTEURISÉ, 


LEURS HYPOTHÈSES : 


Н,: U = 16 OZ. 
H, ፡ሥ < 16 OZ. 
REJETER L'HYPOTHÈSE IMPLIQUE 


DE REFUSER LA LIVRAISON 
DES CÉRÉALES. 


ENSUITE, ILS CHOISISSENT UNE STATISTIQUE DE TEST. MAINTENANT, CELA DEVRAIT 
ÊTRE COMME UN RÉFLEXE D'EXTENSION DU GENOU DE DIRE QUE L'ÉCART 
DE L'ÉCHANTILLON À LA MOYENNE EST : 


X - uo = X - ህሪ 


5(Х) sNn 


OÜ s EST L'ÉCART-TYPE DE L'ECHANTILLON. 
SOUS L'HYPOTHËSE NULLE, CELA SUIT 
PRESQUE ИМЕ LOI NORMALE STANDARD 
AVEC DE GRANDS ECHANTILLONS, 

D'APRÈS LE ТНЕОКЕМЕ CENTRAL LIMITE. 


EN SAUTANT L'ÉTAPE 3 POUR LE MOMENT, ILS FIXENT UN SEUIL DE SIGNIFICATION. 
AYANT TOUS RATÉ LA PLACE DE MAJOR EN SCIENCES, NOS ÉPICIERS PENSENT 
QUE α = 0,05 SONNE BIEN. 


BEN OUI, 
TU AS EU 5 AU MOINS... 


J'AI CARTONNÉ 
EN ASTROLOGIE... 


CHARGÉ DE 10 000 BOÎTES 
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6 AU MEME MOMENT ИМ CAMION 


DE CEREALES ARRIVE A LA PORTE. 


ILS PRENNENT UN ECHANTILLON 
ALEATOIRE SIMPLE DE 44 BOÎTES, 

LES PESENT ET DETERMINENT 

LES STATISTIQUES DE L'ECHANTILLON. 


X = 15,4 OZ 
$ = 0,85 OZ 


C'EST UN PEU LÉGER, 
MAIS EST-CE SIGNIFICATIF ? 


ILS RENTRENT LES VALEURS DANS LA STATISTIQUE DE TEST 
POUR TROUVER : 


15,4 - 16 
Ze = —— = 
095 0,35/V 44 


MAINTENANT, ILS CALCULENT LEUR 
VALEUR Р: P(z < - 2 | Ηρ) = 0,0227 


-2 


0 


= 20,05 


COMME C'EST MOINS QUE LE SEUIL 

DE SIGNIFICATION DE 0,05, L'ÉPICERIE 
AUTHENTIQUE REJETTE L'HYPOTHESE 
NULLE, ET LA MARCHANDISE, 


J'AVAIS LES CROCS, MAN... 
JE NE PENSAIS PAS QUE QUELQU'UN 
REMARQUERAIT 91 J'EN MANGEAIS 
UN PEU DANS CHAQUE BOÎTE... 
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Test де МОУЕММЕ de population 
pour de PETITS ECHANTILLONS 


NOUS REVENONS DANS L'ENTREPRISE CAMÉLÉON AUTOMOBILES ET SES CRASH-TESTS. 
LA COMPAGNIE D'ASSURANCES INTEGRE ASSURERA UNE AUTO SEULEMENT 

SI LA MOYENNE DES COÛTS DE RÉPARATION APRÈS UNE COLLISION À 16 km/h S'ÉLÈVE 
À MOINS DE 1000 €. LA COMPAGNIE UTILISE UN SEUIL DE SIGNIFICATION STANDARD 

а = 0,05. AINSI : 


Н: и = 1000 € LE COÛT MOYEN EST TROP ÉLEVÉ. 


H : Ш < 1000 € LE COÛT MOYEN EST CORRECT. 


LA STATISTIQUE DE TEST EST : 


= X Но où по EST LA MOYENNE 
s(X)  HYPOTHÉTIQUE DE 1000 €. 


5006 L'HYPOTHÈSE NULLE, LA STATISTIQUE А UNE DISTRIBUTION Е DE STUDENT 
AVEC 4 DEGRÉS DE LIBERTÉ. 


t, 4 DEGRÉS 
DE LIBERTÉ 


NOUS VOULONS QUE LE t OBSERVÉ SOIT 
À GAUCHE DE -t, os (CAR DE FAIBLES Ж 
SONT SOUHAITÉS, Ж, - ዕዕ DOIT ÊTRE 
NÉGATIF POUR CONFIRMER H , ). 


(ПА 


α DANS LA TABLE DES VALEURS CRITIQUES 
0,025 0,005 t, ON VOIT QUE t, Ξ 2,18, ON REJETTE 


Ë 2 2,42 430 4,42 
È Š toss = Бов 7 213 
ἃ 5 Р 235 38 5,84 I 
ze ч ls NOUS SAVONS (VOIR CHAPITRE 7) 
5 2,01 2,57 4,03 U 


QUE % = 540 € ET 5 = 244 € 
POUR NOTRE PETIT ÉCHANTILLON 
DE 5 VOITURES, AINSI ON OBTIENT : 


FÉLICITATIONS ! 
FARLONS 


540 - 1000 
MAINTENANT 2 и 
DE VOS AUTRES 086 244//5 
BESOINS EN ut 
ASSURANCE... دک و د‎ 


EST-CE QUE 
CES MOUCHES ONT 
UNE ASSURANCE-VIE ? 


C'EST UN EXEMPLE D'ÉCHANTILLONNAGE D'ACCEPTATION. L'HYPOTHESE NULLE 
EST QUE LES COÛTS DE RÉPARATION NE SONT PAS ACCEPTABLES. L'ENTREPRISE 
EST PRESUMEE COUPABLE ET РОТ FOURNIR DES PREUVES SUFFISANTES DE SON 
INNOCENCE EN MONTRANT QUE LE PRODUIT EST CONFORME AUX SPÉCIFICATIONS. 
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THEORIE DE LA DECISION 


ON PEUT FAIRE UNE ANALOGIE ENTRE LES TESTS D'HYPOTHESES 
(OU DE SIGNIFICATION) ET LES DETECTEURS DE FUMEE 

CHEZ LES PARTICULIERS. ΘΙ VOUS EN AVEZ UN CHEZ VOUS, 

VOUS AVEZ PROBABLEMENT REMARQUÉ QU'ILS ONT TENDANCE 

À SE DÉCLENCHER CHAQUE FOIS QUE VOS TOASTS NOIRCISSENT ! 


C'EST CE QUI S'APPELLE UNE ERREUR DE TYPE | : UNE ALARME SANS FEU. 
INVERSEMENT, UNE ERREUR DE TYPE || EST UN FEU SANS ALARME. TOUT 
CUISINIER SAIT ÉVITER LES ERREURS DE TYPE | : IL SUFFIT D'ENLEVER LES PILES. 
MALHEUREUSEMENT, CELA AUGMENTE LA FRÉQUENCE DES ERREURS DE TYPE ll! 


DE FAÇON SIMILAIRE, RÉDUIRE LES RISQUES D'ERREURS DE TYPE ll, ЕМ RENDANT, 
PAR EXEMPLE, L'ALARME HYPERSENSIBLE, PEUT ACCROÎTRE LE NOMBRE DE FAUSSES ALARMES. 


ON PEUT RESUMER CES RESULTATS DANS ИМЕ TABLE DE DECISION : 


PAS DE FEU 


FEU 
σα 
σα 


MAINTENANT, VOYONS L'HYPOTHESE NULLE COMME ЕТАМТ LA CONDITION 
QU'IL N'Y A PAS DE FEU, ALORS QUE L'HYPOTHESE ALTERNATIVE SIGNIFIE 
QU'IL Y A LE FEU. L'ALARME CORRESPOND AU REJET DE L'HYPOTHESE NULLE. 


PAS D'ALARME 


ALARME 


VÉRITABLE ÉTAT 


H, H, 
тт 
ша 


АССЕРТЕК H, 


REJETER H, 


TOUS LES TESTS DE SIGNIFICATION QUE NOUS VENONS D'EFFECTUER DANS 

CE CHAPITRE METTENT L'ACCENT SUR LA PROBABILITE DE COMMETTRE UNE ERREUR 
DE TYPE | (C'EST-À-DIRE LA PROBABILITÉ QUE NOS OBSERVATIONS SE RÉALISENT 
LORSQUE H, EST VRAIE). NOUS AVIONS POSE : 


P(REJETER H, | H,) = P(ERREUR DE TYPE | | H.) = Qt 


1 - a. MESURE NOTRE CONFIANCE QUE QUAND L'ALARME SONNE, IL Y A EFFECTIVEMENT 
LE FEU. UNE CONFIANCE ÉLEVÉE SIGNIFIE QUE LE DECLENCHEMENT DE FAUSSES 
ALARMES EST RARE. 
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MAIS PARFOIS, CE QUE NOUS VOULONS VRAIMENT CONNAÎTRE C'EST LA PROBABILITÉ 
DE FAIRE UNE ERREUR DE TYPE ll. EN D'AUTRES TERMES, QUELLE EST LA SENSIBILITÉ 
DE NOTRE «SYSTÈME D'ALARME > QUAND L'HYPOTHÈSE ALTERNATIVE EST VÉRIFIÉE ? 


UN EXEMPLE 
ENVIRONNEMENT AL : А 


DANS LE PASSE, LES USINES QUI DÉVERSAIENT DES PRODUITS CHIMIQUES DANS 

LES COURS D'EAU DEVAIENT PROUVER QUE CETTE ACTION N'AVAIT AUCUN IMPACT 

SUR LA VIE AQUATIQUE EN AVAL. C'EST H,. LE POLLUEUR POUVAIT CONTINUER 

TANT QUE L'HYPOTHÈSE NULLE N'ÉTAIT PAS REJETÉE AU SEUIL DE SIGNIFICATION DE 5 %. 


- 


BLOP тор 


AINSI LE POLLUEUR QUI PENSAIT ETRE EN VIOLATION DES NORMES CONCEVAIT LUI-MÉME 
UN PROGRAMME DE CONTROLE DE POLLUTION INEFFICACE. 


— 

ON VA NS 
INTERVIEWER 

።” - 


LE POLLUEUR EST RAVI PUISQUE, COMME NOTRE ALARME INCENDIE SANS PILES, 
SON TEST A TRES PEU OU AUCUNE CHANCE DE DECLENCHER L'ALARME. 


ECRIVEZ CECI : 
«LE CANARD A RÉAGI 
AVEC ENTHOUSIASME. > 


FORMALISONS CETTE IDÉE. POUR DÉCRIRE 
LA PROBABILITE D'UNE ERREUR DE TYPE ΙΙ, 
NOUS SORTONS UNE AUTRE LETTRE 
GRECQUE, ВЕТА OU В. 


В = P(ACCEPTER H, | H.) 
= P(ERREUR DE TYPE Il | H.) 


LA PUISSANCE D'UN TEST 
EST DÉFINIE PAR 1 - В. 
IL S'AGIT DE : 


P(REJETER Н, | H. 


VOUS SEREZ CONTENT D'APPRENDRE 
QUE LES AGENCES ENVIRONNEMENTALES 
ONT ÉVOLUÉ VERS DES PROGRAMMES 

DE CONTRÔLE DE POLLUTION QUI DOIVENT 
MONTRER UNE PROBABILITÉ ÉLEVÉE 


DE ОЕТЕСТЕК LES ÉVÉNEMENTS POLLUANTS 4 
IMPORTANTS. L'ANALYSE DE PUISSANCE ` Me 
REQUISE RÉVËLE SOUVENT LES FAILLES xl " 
CACHÉES DES PROGRAMMES DE CONTRÔLES. > / #2 


UNE FACON DE VISUALISER L'EFFET DE LA PUISSANCE D'UN TEST EST DE TRACER LA PROBABIL! 
DE REJETER H, COMME UNE FONCTION DE L'ÉTAT DU SYSTEME. DANS LE CAS DE L'ALARME 
INCENDIE, LA PROBABILITE CROÍT VERS 1 QUAND LA FUMÉE S'EPAISSIT. 


PROBABILITÉ 
DE L'ALARME 


CRU À POINT BIEN CUIT BRÜLÉ COCKTAIL MOLOTOV 
DENSITÉ DE FUMÉE DANS UNE CUISINE 


FOUR L'EXEMPLE SUR LA QUALITÉ DE L'EAU, L'AXE HORIZONTAL EST LA VRAIE 
CONCENTRATION DE POLLUANTS DANS L'EAU. 


ш 
FE 
R 
са 


«ee SAUVE LES LIBELLULES 
w JUSTE MILIEU 
eee МЕ РАП PAS DE VAGUES 


ACCEPTABLE AU-DELÀ SOLVANT 
DU STANDARD INDUSTRIEL PUR 


VOICI LES COURBES DE PUISSANCE DE TROIS PROGRAMMES DE CONTRÔLE. LE « SAUVE 
LES LIBELLULES > (COÛTE 5 MILLIONS DE €), LE < JUSTE MILIEU > (COÛTE 500 000 €), 
LE «МЕ FAIT PAS DE VAGUES > (COÛTE AUSSI 500 000 €, MAIS IL GARANTIT 


UN BON SPECTACLE !). PLUS LA PUISSANCE DU TEST EST IMPORTANTE, PLUS LA COURBE 
EST ABRUPTE. 


ከ.“ ሚሚ 
FÉLICITATIONS ! 
AVEC CES SECTIONS QUI COUVRENT 
LES BASES DES INTERVALLES DE CONFIANCE 
ET DES TESTS D'HYPOTHËSES, VOUS AVEZ TERMINÉ 
VOTRE PREMIER COURS 
DE STATISTIQUES GÉNÉRALES ! 
AH BON ? ! 


POURQUOI AVEZ-VOUS ALORS CETTE SENSATION DE VIDE DANS VOTRE ESTOMAC ? 
C'EST PARCE QUE POUR UTILISER CES IDÉES DE FAÇON PRATIQUE, NOUS DEVONS 
POUVOIR LES APPLIQUER À UNE VARIÉTÉ DE SITUATIONS QUE NOUS N'AVONS PAS 
ENCORE VUES. C'EST PAR LÀ QUE NOUS ALLONS POURSUIVRE AVEC LA COMPARAISON 
DE DEUX POPULATIONS. 


OK! 
AMENEZ LES POPULATIONS! 
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Chapitre 9 
Comparaison 
de deux populations 


DANS LEQUEL NOUS APPRENONS DE NOUVELLES RECETTES 
EN UTILISANT DE VIEUX INGREDIENTS. 


LES DEUX DERNIERS CHAPITRES NOUS 

ONT EXPLIQUE LES INTERVALLES DE CONFIANCE 
ET LES TESTS D'HYPOTHESES EN UTILISANT 

LA VIANDE ET LES POMMES DE TERRE 
DES MODELES ALEATOIRES : LES DISTRIBUTIONS 
NORMALES ET BINOMIALES. 


AVEC LA LOI NORMALE 
DANS LE ROLE DES PATATES ! 


MAIS CE QUI REND LES STATISTIQUES AUSSI STIMULANTES QUE LA CUISINE, C'EST LA DIVERSITE. 
COMME UN EXPERT EN CUISINE, LE STATISTICIEN PEUT < GOÛTER > LES INGREDIENTS D'UN PROBLÈME 
ET TROUVER LA FACON LA PLUS EFFICACE DE LES COMBINER DANS UNE RECETTE STATISTIQUE. 


HUM! COMMENT 
ON SOUSTRAIT 
DU SEL? 


(LA RAISON POUR LAQUELLE LES LIVRES DE CUISINE ЕТ LES MANUELS DE STATISTIQUES SONT SI LOURDS 
EST QU'ILS FOURNISSENT TOUS LES DEUX DES SOLUTIONS A UNE GRANDE VARIÉTÉ DE SITUATIONS!) 


MAINTENANT, 
OU EST CETTE SAUCE 
BINOMIALE ? 


EST-CE QUE РКЕМОКЕ DE L'ASPIRINE 
RÉGULIËREMENT RÉDUIT LE RISQUE D'INFARCTUS ? 


DANS CE CHAPITRE, NOUS ALLONS UTILISER 
NOS MÉTHODES «VIANDE-ET-PATATE » DANS 
DE NOUVELLES RECETTES QUI VONT NOUS AIDER 
À RÉPONDRE AUX QUESTIONS SUIVANTES : 


EST-CE QUE LES HOMMES ET LES FEMMES 
FAISANT LE MÊME TRAVAIL ONT DES SALAIRES 
DIFFÉRENTS ? 


EST-CE QU'UN PESTICIDE PARTICULIER AUGMENTE 
LE RENDEMENT AGRICOLE ? 


(vene 
iiis 


L'INGRÉDIENT COMMUN À CES QUESTIONS 
EST QU'IL EST POSSIBLE D'Y RÉPONDRE 
EN COMPARANT DEUX ÉCHANTILLONS 
ALÉATOIRES INDÉPENDANTS, 


ET À LA FIN DU CHAPITRE, NOUS VERRONS 
UNE AUTRE MÉTHODE QUI PERMET DE COMPARER 
DEUX MOYENNES ET QUI NE NÉCESSITE 

PAS DE PRENDRE DEUX ÉCHANTILLONS 


UN POUR CHAQUE POPULATION. ALEATOIRES SIMPLES... 
ت‎ (е 
Ф 
% 
ከሥም Q. 


PESTICIDE SANS PESTICIDE 
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Comparaison de TAUX DE SUCCES 
(ou d’échecs) de deux populations 


NOUS COMMENCONS PAR UNE EXPERIENCE, EN PARTIE MENEE PAR UNE ETUDE 
DE HARVARD, QUI CHERCHAIT A DETERMINER L'EFFICACITÉ DE L'ASPIRINE POUR 
REDUIRE LES CRISES CARDIAQUES. COMME DANS LA PLUPART DES ESSAIS CLINIQUES, 
LES RISQUES QU'UN INDIVIDU AIT LA MALADIE — ICI UNE CRISE CARDIAQUE — 

SONT TRÈS MINCES SUR UNE ANNÉE. MAIS NOUS VOULONS UNE RÉPONSE RAPIDE! 
COMMENT FAIRE ? 


PRENDRE 
20 000 ASPIRINES ? 


LA SOLUTION SIMPLE MAIS COÛTEUSE EST DE TESTER UN GRAND NOMBRE D'INDIVIDUS 
EN PEU DE TEMPS. DANS CETTE ÉTUDE, 22 071 SUJETS (TOUS DES DOCTEURS 
VOLONTAIRES) FURENT ALÉATOIREMENT RÉPARTIS EN DEUX GROUPES. 


SANS 
ASPIRINE 


LE GROUPE 1 PRENAIT UN PLACEBO, LE GROUPE 2 RECEVAIT UNE ASPIRINE 
UNE PILULE IDENTIQUE A L'ASPIRINE PAR JOUR. 
MAIS SANS ASPIRINE. 
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SUR UNE PÉRIODE AVOISINANT LES CINQ ANS*, 
LES ENQUÊTEURS ENREGISTRÈRENT LES RÉPONSES : » 


CRISE CARDIAQUE Ой NON. 
LE RESULTAT (DANS LES NOMBRES 

QUI SUIVENT NOUS AVONS SOMME 

LES CRISES CARDIAQUES FATALES OU NON) : 


ATTAQUES PAS D'ATTAQUES n TAUX D'ATTAQUES 
PLACEBO 23q 10745 1034 D = 234 _ 
Pr 5 og = ООЙТ 
ASPIRINE 184 10848 11037 B = EL = 
Р» dos 0,0126 


LA DIFFÉRENCE OBSERVÉE DANS LE TAUX 
DE SUCCES EST P, - p; 0,004. | 
CELA PEUT PARAÍTRE PETIT JUSQU'À CE 
QUE ПОМ REGARDE LE RISQUE RELATIF, 
Pi 002" _ 


ይ 7 0026 ^" 


LES MEMBRES DU GROUPE AVEC PLACEBO 
ETAIENT 1,72 FOIS PLUS SUJETS A UNE 
CRISE CARDIAQUE QUE CEUX DU GROUPE 
AVEC L'ASPIRINE. 


*L'ÉTUDE FUT ARRETEE AVANT SON TERME A CAUSE DE SON RÉSULTAT POSITIF. IL AURAIT ETE IMPRUDENT 
ET IRREALISTE DE CACHER LES RESULTATS AU GROUPE QUI PRENAIT LE PLACEBO. 


Le modèle : LES OBSERVATIONS DES GROUPES < PLACEBO ET ASPIRINE» SONT 
DES ECHANTILLONS INDEPENDANTS DE DEUX POPULATIONS BINOMIALES. FAR SOUCI 
DE COHERENCE, NOUS POSONS QU'UNE CRISE CARDIAQUE DEFINIT UN SUCCES (!). 


ΩΩ со ον. 


POPULATION 1 PLACEBO POPULATION 2 ASPIRINE 
PROBABILITÉ DE SUCCES = Р PROBABILITÉ DE SUCCES = P2 


L'OBJECTIF EST D'ESTIMER LA VRAIE DIFFÉRENCE Pi - Pz. 


POUR CHAQUE POPULATION (EN FAIT POUR DE GRANDS ECHANTILLONS DE LA POPULATION 
GENERALE), NOUS AVONS LES VARIABLES ALEATOIRES USUELLES : 


NOMBRE DE SUCCES NOMBRE DE SUCCES 
! DE L'ÉCHANTILLON 1 2  DEL'ÉCHANTILLON 2 
4 _ ^, PROPORTION DE SUCCÈS ^ _ X; PROPORTION DE SUCCES 
ΡΞ п, DE LECHANTILLON 1 ΡΞ Ἢ ; DE LECHANTILLON 2 


ET ИМ ESTIMATEUR DU TAUX DE DIFFÉRENCE QUI EST P, - ዴ. 


ET MAINTENANT, TEL UN DISQUE RAYÉ 
NOUS NOUS DEMANDONS : COMMENT 
Р, - Р» EST-IL DISTRIBUÉ ? 
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A A 
Distribution d'échantillonnage de P, - Р, 


POUR DE GRANDS ÉCHANTILLONS, LA DISTRIBUTION DE Ê, - P, 

EST APPROXIMATIVEMENT NORMALE COMME DANS LE CAS 

D'UN UNIQUE ÉCHANTILLON. ON PEUT TRANSFORMER EN Z 

POUR OBTENIR (APPROXIMATIVEMENT) UNE LOI NORMALE STANDARD 


P, - Ê, - (p, - p) 


o (ñ, - P,) 


MAIS COMMENT TROUVER L'ÉCART-TYPE 
DU DÉNOMINATEUR ? 


COMME LES DEUX ÉCHANTILLONS SONT INDEPENDANTS, LES VARIABLES ALEATOIRES 
P, ET P, LE SONT AUSSI ET LEURS VARIANCES S'ADDITIONNENT. 


2/9 л 2/2 2/2 - 
o (Ê - ዴ) = (Ê) + а (ዴ) 
JE RECOMMANDE 
UNE ASPIRINE AVANT 
DONC DE CONTINUER... 


o(P, - ዴ) = Vo (Ê) + о“(Р,) 


MAINTENANT QUE NOUS 


CONNAISSONS LA DISTRIBUTION 
DE LA STATISTIQUE DE TEST, 

ON PEUT ESTIMER 

DES INTERVALLES 

DE CONFIANCE 

ET TESTER L'HYPOTHESE 
QUE L'ASPIRINE REDUIT 

LE RISQUE DE CRISE CARDIAQUE. 


Intervalle de confiance 
de p, - p; 


COMME D'HABITUDE, L'INTERVALLE 
DE CONFIANCE POUR NOTRE ESTIMATION 


EST DU TYPE : 


A 


P,-P,EP - P: + 2,280 Ph - pe) 


ያ T x 
DIFFÉRENCE ERREUR-TYPE 


VRAIE DIFFERENCE OBSERVÉE ESTIMEE 
DES PROPORTIONS FRACTLE 
οσον OU VALEUR CRITIQUE 


LES VARIANCES DE P, ET P, S'AJOUTENT, DONC 
L'ERREUR-TYPE DEVIENT : 


BU) + Ap 
MARE пр mM 


1 2 


DANS L'ÉTUDE SUR L'ASPIRINE, L'ERREUR-TYPE EST : 


(0,0217 )(0,4783 ) + (0,0126)(0,4874) 
1034 [027 


UNE ERREUR 


DANS LE CAS DE L'ASPIRINE, 

POUR OBTENIR UN INTERVALLE 

DE CONFIANCE A 45 %, ON REMPLACE 
PAR LES VALEURS : 


P, - p, € 0,004 + (1,46 )(0,00175) 


P,- p, € 0,0041 + 0,0034 


U 


NOUS SOMMES CONFIANTS 
AU MOINS A 45 % QUE LA DIFFERENCE 
DANS LE TAUX DE CRISES CARDIAQUES 


EST ENTRE 0,0057 ET 0,0125, 

UN NOMBRE DEFINITIVEMENT POSITIF! 
NOUS SOMMES DONC SÛRS 

AU MOINS A 45 % QUE L'ASPIRINE 
ABAISSE VRAIMENT LE TAUX DE CRISES 
CARDIAQUES. 


Ним! 
VOUDRIEZ-VOUS 
AJOUTER DE L'ASPIRINE 
À MES CROQUETTES ? 


Tests d’hypothèses 


LA QUESTION FORMELLE D'UN TEST 
D'HYPOTHËSE EST : 


ΘΙ L'ASPIRINE 
N'A PAS D'EFFET, 
QUELLE EST LA PROBABILITÉ 
QUE NOS RÉSULTATS 
SOIENT DUS 
AU HASARD ? 


Ho : L'HYPOTHÈSE NULLE EST QUE L'ASPIRINE 
МА PAS D'EFFET : p, = Py 

H, : L'ALTERNATIVE EST QUE L'ASPIRINE RÉDUIT 
LE TAUX DE CRISES CARDIAQUES : p, > р,. 


MAINTENANT, IL NOUS FAUT UNE STATISTIQUE 
DISTRIBUÉE NORMALEMENT POUR LAQUELLE H, 
EST VRAIE. 


መ 


NOTEZ QUE SOUS Hh, LES DEUX PROPORTIONS 
SONT EGALES p, = p, = p... ON MÉLANGE 
LES DONNEES POUR AVOIR LA PROPORTION 

DE CRISES CARDIAQUES DANS LES DEUX 
ECHANTILLONS PRIS ENSEMBLE : 


_ % tX, 
nm +n, 


QUAND L'HYPOTHËSE NULLE EST VRAIE, 
L'ERREUR-TYPE NOTÉE S, (INDICE 0 
POUR H, VRAIE) DEPEND UNIQUEMENT 
DE L'ESTIMATION MUTUALISEE : 


s (A -P.)= VP - βλῃ +) 


N 


ET ON A CETTE STATISTIQUE DE TEST : 
Ê ፍን ደ ደ 
Z === An 
«(δ - P,) 
(LE NUMERATEUR EST EN GENERAL PLUTÓT 
ñ, - Pa - (p, = P,), MAIS H, SUPPOSE 
QUE p, - p, = 0.) 


JE LE TIENS ! 
REMPLACONS-LE 
DANS LA FORMULE! 


POUR L'ETUDE DES ASPIRINES, ON TROUVE : 


ል 278 ^ 
= 22071 = 0,017] ET 1 - p = 0,4824 


>, (Ê - ዴ) = 0,00175 DONC : 


β-β,  ዐዕዐዐጣ 
Aat = 
መ (В-Р,) 0,0015 
< 5,20 


Zogs EST À PLUS DE CINQ ÉCARTS-TYPES DE ZÉRO, L'EFFET EST FORTEMENT 
POSITIF. EN UTILISANT UNE TABLE OU UN ORDINATEUR, ON OBTIENT LA VALEUR Р: 


VALEUR DE P = P(z = zoss) = F(z > 5,2) = 0,0000001 


EN UTILISANT UNE TABLE 
OU UN ORDINATEUR, 
OU UN ORDINATEUR 
SUR UNE TABLE... 


SI L'HYPOTHÈSE NULLE ÉTAIT VRAIE, LA PROBABILITÉ D'OBSERVER UN EFFET AUSSI 
LARGE EST DE UN SUR DIX MILLIONS — UNE PREUVE SOLIDE CONTRE Н,! 


LA VALEUR F PERTINENTE DÉPEND 


La recette DE L'HYPOTHÈSE ALTERNATIVE : 


générale : 
А) BILATÉRAL, H, : p, = p, 


POUR TESTER L'HYPOTHËSE 
NULLE : 

H : P, > P; ы. е8 

= г 
ON CALCULE LA STATISTIQUE DE VALEUR DE P = P(|Z| > Zoss) 
TEST : 
_ ፅ-ይ B.) UNILATÉRAL DROIT, H, : p, > p, 
2085 - A A 
s (P, = F; 2 ) 

OÜ so EST CALCULÉE ЕМ UTILISANT T 
LA PROBABILITÉ MUTUALISÉE VALEUR DE P = P(Z > л) 
EN MÉLANGEANT LES GROUPES. 


С) UNILATÉRAL GAUCHE, H, : p, < p, 


VALEUR DE P = P(Z < 2,66) 
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L'ANALYSE DE L'ETUDE SUR L'ASPIRINE DEPENDAIT DE CERTAINES CARACTÉRISTIQUES 
DE L'EXPERIENCE CONCUES POUR GARANTIR LE HASARD ET ÉLIMINER LES BIAIS. 


LES SUJETS ETAIENT AFFECTES 
AU GROUPE DE TRAITEMENT 
DE FACON ALEATOIRE. 


LA TAILLE D'ECHANTILLON ETAIT 
SUFFISAMMENT GRANDE POUR FAIRE 
L'APPROXIMATION NORMALE. 


NOUS AVONS AUSSI SUPPOSE 
QUE LES MEDECINS 
ETAIENT REPRESENTATIFS 
DE LA POPULATION GLOBALE... 


L'EXPERIENCE ETAIT EN AVEUGLE : 
е LES SUJETS МЕ SAVAIENT PAS 

S'ILS PRENAIENT DE L'ASPIRINE 
OU UN PLACEBO. 


LES POINTS 1 ET 2 SONT ESSENTIELS DANS 
LA CONCEPTION DE LA PLUPART DES ΕΘΘΑΙΘ 
CLINIQUES. MAIS LE POINT 3 N'EST PAS 
INDISPENSABLE. IL EXISTE DE BONS TESTS 
SUR DE PETITS ECHANTILLONS, DISPONIBLES 
DANS DES LOGICIELS DE STATISTIQUES. 

CES PROCEDURES NON PARAMETRIQUES 
DEPENDENT DE CALCULS DE PROBABILITES 
SIMPLES MAIS LONGS DU TYPE DE CEUX 
QUE NOUS AVONS RENCONTRES DANS 

LE CHAPITRE 4. 
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Comparaison de MOYENNES 
de deux populations 


SUPPOSONS QUE L'ON VEUILLE COMPARER 
LE SALAIRE MOYEN DES HOMMES A CELUI 
DES FEMMES EMPLOYEES POUR LE MEME 
TRAVAIL DANS UNE ENTREPRISE. 


BIEN SOR. 
AU FAIT, J'ADORE 
TON TONNEAU! 


IL Y A BESOIN DE FAIRE 
UNE ÉTUDE ? 


LA POPULATION 1 EST CELLE DES FEMMES, ET LA POPULATION 2 CELLE DES HOMMES. 


арар 


LA POPULATION 1 A UN SALAIRE LA POPULATION 2 A UN SALAIRE 
MOYEN μι ET UN ECART-TYPE σι. MOYEN JL, ET UN ECART-TYPE О;. 


UN ÉCHANTILLON ALEATOIRE SIMPLE DE TAILLE r1, POUR LE GROUPE | ET DE TAILLE n, 
POUR LE GROUPE 2 FOURNIT DES MOYENNES D'ÉCHANTILLONS DE X, ЕТ X, 

AVEC DES ÉCARTS-TYPES RESPECTIVEMENT DE 9) ET $,. L'ESTIMATEUR DE μ, = μ, 
EST: 
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А QUEL POINT NOTRE ESTIMATEUR X - X, 


- ? 
EST PONS UNE FORMULE 


POUR DE GRANDS ÉCHANTILLONS, EXTRÉMEMENT SIMPLE 
C'EST PRESQUE NORMAL D'APRÈS ой. POUR ИМ ЁТЕЕ 
LE ТНЕОКЕМЕ CENTRAL LIMITE n EXTRÉMEMENT SIMPLE 
ET L'ERREUR-TYPE VAUT | COMME MOI! 


(LES VARIANCES S'AJOUTENT 

CAR LES ÉCHANTILLONS SONT INDÉPENDANTS. ) 
MAINTENANT NOUS POUVONS DIRECTEMENT 
POURSUIVRE AVEC LES intervalles 

de confiance : POUR DE GRANDS 
ÉCHANTILLONS, L'INTERVALLE AVEC (1 - α) 

DE CONFIANCE POUR LA DIFFÉRENCE 

DE MOYENNE EST : 


H,- Uy € X, Ἀν + zu, X - X) 


Test d'hypothése : ον Pose L'HYPOTHÈSE NULLE QUI DIT QUE LES MOYENNES 


DE POPULATION SONT ÉGALES. 
H $ μι - M, 
UNE BONNE CHOSE : CE LIVRE 
LA STATISTIQUE DE TEST VAUT : NE TRAITERA PLUS DE SALAIRE | 
_ 1^2 
2085 7 = 
5( 1-Х) 


ЕТ LES VALEURS Р РОМСТІОММЕМТ 
DE МАМЕКЕ HABITUELLE. 


μας ολ 


Et qu’en est-il de la comparaison 
des MOYENNES DE PETITS ECHANTILLONS! 


VOUS VOUS RAPPELEZ CAMÉLÉON AUTOMOBILES ? LEUR CONCURRENT, IGUANE AUTOS, 
AFFIRME QUE LEUR CAPOT AVEC DÉCORATION EN POLYSTYRÈNE OFFRE UNE MEILLEURE 
PROTECTION AUX CRASHS FRONTAUX ET ILS ONT CRASHÉ SEPT IGUANE POUR 

LE PROUVER! 


ALLEZ CAMÉLÉON ! 
Toi ET MOI! idis Le, INEN 
SEULS, AVEC LES POINGS, TE SU 
L'UN CONTRE L'AUTRE! J'AI L'IMPRESSION 


D'ÉTRE DANS UN COMICS 
DE SPIDERMAN... 


LEURS RÉSULTATS COMPARES AUX CAMÉLÉON SONT : 


HUM... CA DOIT 
ETRE PARLANT... 
MAIS QU'EST-CE QUE 
CA DIT? 


CAMÉLÉON IGUANE 
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LE t DE STUDENT PEUT ETRE UTILISÉ : L'ERREUR-TYPE EST LA MEME QUE POUR 
SI LES DEUX POPULATIONS ONT UNE FORME + DE GRANDS ÉCHANTILLONS, SAUF QUE 
DE MONTICULE ET ONT LE MÊME ECART-TYPE · 2 5 REMPLACE S, ET 5, 

С = С = ©, LE SEUL НК EST QUE NOUS ° 

DEVONS FAIRE UNE МОУЕММЕ PONDEREE : 

DES VARIANCES D'ÉCHANTILLON POUR : (X-X) Ser Ser 
ESTIMER 0%. ет а 


2 2 
= - (n, -1}9 + (n, -1)s, : [к.т 
EST n + n,- 2 ` = Seer n n, 


: L'INTERVALLE AVEC 1 - œ DE CONFIANCE 
: EST ALORS : 


μι = M, Є x ። КА Е toj; e(X-x) 


OÙ Е а EST LE FRACTILE D'UN t 
DE STUDENT AVEC n + n, - 2 DEGRES 
DE LIBERTÉ. 


LES CONSTRUCTEURS ΚΕΡΤΙΗΕΝΘ D'AUTOMOBILE CONVIENNENT QUE LEURS ÉCARTS-TYPES 
SONT PROCHES ET QUE LEURS HISTOGRAMMES DE RÉPARATIONS ONT UNE FORME 
DE CLOCHE. ILS CALCULENT : 


4 x 2442 + 6 х 2382 
EST ^7 10 


= 264 OK. OUBLIONS LA SÉCURITÉ... 
VOUS NE FAITES PAS LE POIDS 


AU NIVEAU DU STYLE... 


s(X-X,) = 264 l l 


EFT = 155 


L'INTERVALLE DE CONFIANCE А 95 % EST : 


μι- H, Е 540 - 300 + ἔρως X 155 


LL, 7 H, € 240 + 2,28 х [55 


H,- HL, € 240 + 346 


COMME CELA INCLUT LA VALEUR 0, IGUANE 
AUTOS N'A PAS PROUVÉ LA PRESENCE 

D'AMELIORATIONS SIGNIFICATIVES 
POUR LES COÛTS DE RÉPARATION. 


LE PROCHAIN EXEMPLE MONTRE L'INCONVÉNIENT 


DE SUIVRE BÊTEMENT LE LIVRE DE RECETTES : JE SUIS 


LE PROPRIÉTAIRE D'UNE LARGE FLOTTE DE TAXIS бела AKER 
AMÉRICAINS VEUT COMPARER LES DISTANCES - AVEC ИМЕ GRANDE 
PARCOURUES, EN MILES, AVEC, SOIT 

ИМЕ ESSENCE A, SOIT UNE ESSENCE В. 


IL SELECTIONNE 100 TAXIS, ET LEUR ASSIGNE AU HASARD L'UNE DES ESSENCES. 
APRES UNE JOURNEE TYPE DE TAXI, IL OBTIENT : 


TAILLE MOYENNE Е 
D'ÉCHANTILLON DE MILES ECART-TYPE 
A 50 25 5,00 ур 
ይ 50 26 4,00 


LA DIFFERENCE D'ECHANTILLON EST : 
OK... SUIVONS LE LIVRE 


À LA LETTRE... 


-X,9 28 = 26 = =l 


L'ESSENCE В EST-ELLE 


MEILLEURE QUE L'ESSENCE А? 
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EN RAISON DES ECARTS-TYPES ELEVES, CELA EXCEDE LE SEUIL DE SIGNIFICATION 
L'ERREUR-TYPE EST ASSEZ SUBSTANTIELLE. а = 0,05. NOUS EN CONCLUONS 

DONC QUE LES PREUVES ΕΝ FAVEUR 

DE L'ESSENCE B SONT TRES FAIBLES. 


APPELEZ-MOI 


= 0,405 UN STATISTICIEN ! 


AVEC 45 % DE CONFIANCE, NOUS AVONS : 
BH, Ma € x,” х, £ 20590 B x) 


щ- M, € - 1 (1,46 x 0,405) 
4-a, € - 1 + 1,774 


CELA INCLUT LA VALEUR 0, QUI CORRESPOND 
Аш =, 


ET UN TEST 
D'HYPOTHËSE ? 


° 


LA VALEUR P POUR L'HYPOTHESE 
ALTERNATIVE, Н, : μι # пу ναυτ: 


Р(121> 12) = {1217 =) 


= P(|z|> 1,1) = 2 x 0,1357 -` 
= 0,2714 


AIRE TOTALE 
HACHUREE = 0,2714 


[| 
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COMPARAISON АРРАК!ЕЕ 
Une meilleure façon pour comparer les essences 


LE PROPRIÉTAIRE DE TAXIS 
OÙ EST MON LD A SUIVI LE LIVRE À LA LETTRE. 
ERREUR ? зезу SES ECHANTILLONS ЕТАЕМТ 
ረ ALÉATOIRES D'UNE TAILLE 
SUFFISAMMENT GRANDE. 
IL A SIMPLEMENT OUBLIE 
DE REFLECHIR QUAND 
C'ÉTAIT NÉCESSAIRE. 


BIEN QUE L'ESSENCE B SEMBLE LÉGÈREMENT SUPÉRIEURE À L'ESSENCE À, 

L'INTERVALLE DE CONFIANCE ÉTAIT LARGE À CAUSE DES GRANDS ÉCARTS-TYPES 

(AINSI, LES KILOMÈTRES PARCOURUS VARIAIENT BEAUCOUP D'UN TAXI À L'AUTRE). 
POURQUOI TANT DE VARIABILITÉ ? РАКСЕ QUE LES TAXIS ET LEURS CONDUCTEURS 

ONT DES CARACTÉRISTIQUES DIFFÉRENTES. 
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UNE BIEN MEILLEURE FAÇON D'ABORDER CETTE ETUDE EST D'AFFECTER L'ESSENCE A ET B 
AU MEME TAXI SUR DES JOURS DIFFERENTS. 


2 в 


LE TRAITEMENT PEUT ENCORE ETRE ALEATOIRE AVEC UN LANCER DE PIECE POUR DÉCIDER 
SI ON UTILISE L'ESSENCE A LE MARDI OU LE MERCREDI. ET ON PEUT MEME ECONOMISER 
L'ARGENT ET LE TEMPS DU PROPRIÉTAIRE ΕΝ NE PRATIQUANT L'EXPÉRIENCE 

QUE SUR 10 TAXIS ! 


z 


ESSENCE À ESSENCE БВ DIFFÉRENCE 


BEAUCOUP MOINS 
DE PIÈCES 
À LANCER! 


27,01 26,95 0,06 
20,00 20,44 - 0,44 
23,41 25,05 - 1,64 
25,22 26,32 - 1,10 
30,11 29,56 0,55 
25,55 26,60 - 1,05 
22,23 22,43 - 0,70 
20,23 - 0,45 
88,45 - 0,50 
25,22 26,01 - 0,74 


1 

2 
8 
4 
5 
6 
7 
8 
а 


5 


MOYENNE ፤ 25,804 - 0,61 


ЕСАКТ-ТУРЕ 4,10 0,61 


NOTEZ QUE LES MOYENNES ET ECARTS-TYPES DES ESSENCES А ET В SONT 

À PEU PRES LES MEMES QUE PRÉCÉDEMMENT. C'ÉTAIT PREVISIBLE PUISQUE 

CES STATISTIQUES ONT LES MÉMES SOURCES DE VARIATION QUE DES ÉCHANTILLONS 
NON APPARIES. MAIS MAINTENANT LA COLONNE DES DIFFERENCES A UN FAIBLE 
ECART-TYPE. CES DIFFERENCES ELIMINENT LA VARIABILITE ENTRE LES TAXIS 

EN COMPARANT LES PERFORMANCES DE L'ESSENCE POUR UNE MEME VOITURE. 
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LA DIFFERENCE d, FOURNIT UNE MESURE 
DE LA DIFFERENCE POUR CHAQUE 
TAXI ET NOUS POUVONS L'UTILISER 

POUR NOTRE STATISTIQUE DE TEST t 

SUR DE PETITS ECHANTILLONS. 


_ d 
5 PAU 
OÜ А EST LA MOYENNE DES DIFFÉRENCES 
DE L'ÉCHANTILLON (- 0,61 DANS L'EXEMPLE) 
ЕТ 5 , EST LEUR ÉCART-TYPE (ici 0,61). 


L'INTERVALLE DE CONFIANCE À 45 % CENTRÉ 
EN d EST: 


Ша Є d tt ss МИ 


0,61 
€ - 0,61 + 2,26 х = 
Ка Мо 


Hj € - 0,61 + 0,44 - 1,05 - 0,61 - 0,17 0 


NOUS SOMMES SÛRS A 45 % QUE - 1,05 < ሥሪ < - 0,17, CE QUI CONSTITUE 
UNE PREUVE SOLIDE QUE L'ESSENCE B EST SUPERIEURE. 


LA VALEUR P DU TEST D'HYPOTHÈSE PEUT ÊTRE CALCULÉE PAR ORDINATEUR. 


Hy: ly #0 


VALEUR DE P = P(|t | > |t,,¢l) 


0,61 ) 


= P [it |> 0,14 


= P(|t| > 3,21) 
= 0,011 


LA VALEUR P EST INFÉRIEURE À 0,05, DONC, A NOUVEAU, L'ESSENCE В PASSE LE TEST. 
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VOICI LE DIAGRAMME EN POINTS DES DONNEES EN MILES PARCOURUS SELON 
L'ESSENCE : LE PREMIER DESSIN MONTRE LES DONNEES NON APPARIEES. 


ESSENCE B 99 


ESSENCE A ee 
20 


MILES PAR GALLON 
1 MILE = 1,604 km ; 1 GALLON = 3,785 L 


ET VOICI LES MÊMES DONNEES APPARIEES PAR TAXI. 


ESSENCE B / F / ፣ | 
ESSENCE А 
2ፋ 26 28 30 32 34 


20 22 


MILES PAR GALLON 
1 MILE = 1,604 km ;1 GALLON = 8,785 L 


LA PRÉDOMINANCE 
DE SEGMENTS INCLINES VERS 
LA DROITE EST UN INDICE FORT a) 
QUE L'ESSENCE В ACCROÎT 
LA DISTANCE PARCOURUE. 


QUEL SEGMENT 


INCLINE À DROITE ? 


UTILISER DES ECHANTILLONS APPARIES EST LA METHODE LA PLUS EFFICACE POUR REDUIRE 
LA VARIABILITE NATURELLE QUAND ON COMPARE DES TRAITEMENTS. PAR EXEMPLE, 

SI L'ON COMPARE DEUX MARQUES DE CRÈMES POUR LES MAINS, ON PEUT ALÉATOIREMENT 
AFFECTER LA MAIN DROITE À L'UNE ET LA MAIN GAUCHE À L'AUTRE POUR LE MÊME SUJET. 
ON ÉLIMINE AINSI LA VARIABILITÉ DUE À DES TYPES DE PEAUX DIFFÉRENTS. 


OU SI ON COMPARE DEUX MARQUES DE CÉRÉALES, CHAQUE < GOÜTEUR > ÉVALUERA 

LES DEUX CÉRÉALES (DANS UN ORDRE ALÉATOIRE). UNE COMPARAISON APPARIÉE 
SUPPRIME LE BIAIS NATUREL D'UN GOÛTEUR QUI SERAIT POUR OU CONTRE LES CÉRÉALES 
D'UNE MANIÈRE GÉNÉRALE. 


PFFFF! OÙ SONT DONC PASSES 
LE BACON ET LES ŒUFS ? 
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DANS СЕ CHAPITRE, NOUS AVONS APPLIQUE LES IDEES DE BASE SUR LES INTERVALLES 
DE CONFIANCE ET LES TESTS D'HYPOTHESES A LA COMPARAISON DE DEUX POPULATIONS. 
IL EXISTE D'INNOMBRABLES AUTRES POSSIBILITÉS. NOUS AURIONS PU POURSUIVRE 

EN DECRIVANT DES COMPARAISONS : 


ወ >ÉcARrTs-TrPES DE DEUX POPULATIONS CEST POUR CELA 


AVEC DE PETITS ÉCHANTILLONS ; QUE LES LIVRES DE STATS 
SONT SI ЕРА... 


ወ DE MOYENNES DE PLUS DE DEUX 


POPULATIONS AVEC DE GRANDS 
ÉCHANTILLONS ; 


@ ΡΕ MOYENNES DE PLUS 
DE DEUX POPULATIONS AVEC 
DE PETITS ÉCHANTILLONS ; 


ЕТС! 


DANS LA PRATIQUE, LES STATISTICIENS DETERMINENT LA NATURE GENERALE 
D'UN PROBLEME ET CONSULTENT ALORS LE LIVRE DE REFERENCE ADAPTE. 


D LA SEULE IDÉE VÉRITABLEMENT NOUVELLE 
DE CE CHAPITRE ÉTAIT L'APPARIEMENT 
POUR RÉALISER DES TESTS 

DE COMPARAISON. DANS LE PROCHAIN 
CHAPITRE, NOUS VERRONS D'AUTRES 
TYPES DE DISPOSITIFS EXPÉRIMENTAUX. 
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VOUS VOULEZ ACHETER 
UN CAMELEON 
D'OCCASION ? 
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Chapitre 10 


Méthodes 
expérimentales 


LA CONCEPTION EST SOUVENT CE QUI GARANTIT LE SUCCÈS OU L'ÉCHEC D'UNE EXPÉRIENCE. 
DANS L'EXEMPLE DE LA COMPARAISON APPARIÉE, NOTRE STATISTICIEN А INVERSE 

LES RÔLES PASSANT D'UNE COLLECTE ET D'UNE ANALYSE PASSIVE DES DONNÉES 

À UNE PARTICIPATION ACTIVE DANS LE DISPOSITIF DE L'EXPÉRIENCE. 


VOUS POUVEZ 
LA CONDUIRE 
GRATIS QUAND 
VOUS VOULEZ! 
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DANS СЕ CHAPITRE, 

NOUS INTRODUISONS 

LES IDEES DE BASE 

DES METHODES 
EXPERIMENTALES, 

EN LAISSANT LES ANALYSES 
NUMÉRIQUES DETAILLEES 

A VOTRE LOGICIEL 

DE STATISTIQUES. 


PAS DE FORMULES 
DANS CE CHAPITRE... 
DÉSOLÉ! 


LES ÉLÉMENTS D'UN DISPOSITIF SONT : LES UNITÉS EXPÉRIMENTALES 
ET LES TRAITEMENTS QUI SERONT ASSIGNES AUX UNITÉS. L'OBJECTIF DU DISPOSITIF 
EST DE COMPARER LES TRAITEMENTS. 


POUR DES ESSAIS 
MÉDICAUX, LES PATIENTS 
SONT LES UNITÉS, 

ET LES MÉDICAMENTS 
SONT LES TRAITEMENTS. 
DANS L'EXEMPLE SUR 
L'ESSENCE, LES UNITÉS 
EXPÉRIMENTALES 

SONT LES TAXIS, 

ET LES TRAITEMENTS 

À COMPARER SONT 
LES ESSENCES À ET B. 


DANS DES EXPÉRIENCES AGRICOLES, LES UNITÉS EXPÉRIMENTALES SONT SOUVENT 
DES PARCELLES DE TERRAIN, ET LES TRAITEMENTS PEUVENT CORRESPONDRE 
À L'APPLICATION DE DIFFÉRENTES VARIÉTÉS DE BLÉ, DE PESTICIDES, DE FERTILISANTS, ETC. 
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AUJOURD'HUI, LES IDÉES DES MÉTHODES 
EXPERIMENTALES SONT LARGEMENT UTILISÉES 
DANS L'OPTIMISATION DES PROCESSUS 
INDUSTRIELS, EN MEDECINE ET DANS 

LES SCIENCES SOCIALES. TOUT DISPOSITIF 
EXPÉRIMENTAL UTILISE TROIS PRINCIPES 

DE BASE QUI ÉTAIENT TOUS PRÉSENTS 

DANS L'EXEMPLE DES TAXIS. 


QUE CONDUIRE 
UN TAXI ÉTAIT 
UNE FORME 


Le contrôle local : IL SE RÉFÈRE 

À TOUTE MÉTHODE QUI TIENT COMPTE 

DE LA VARIABILITÉ NATURELLE ET LA RÉDUIT. 
UN MOYEN EST DE REGROUPER LES UNITÉS 
EXPÉRIMENTALES SIMILAIRES EN BLOCS. 
DANS L'EXEMPLE DES TAXIS, CHACUN 

D'EUX UTILISAIT LES DEUX ESSENCES, 

ON DIT ALORS QUE LE TAXI EST UN BLOC. 


ΕΟΝΟΕΖΙ 
JE SUIS A BLOC! 


La réplication : LES MÊMES 
TRAITEMENTS SONT ASSIGNÉS 

À DIFFÉRENTES UNITES EXPERIMENTALES. 
SANS RÉPLICATION, IL EST IMPOSSIBLE 
D'ÉVALUER LA VARIABILITÉ NATURELLE 

ET LES ERREURS DE MESURE. 


La randomisation : C'EST 

L'ÉTAPE ESSENTIELLE POUR TOUTE ÉTUDE 
STATISTIQUE ! LES TRAITEMENTS DOIVENT 
ÊTRE ASSIGNÉS ALÉATOIREMENT AUX UNITÉS 
EXPÉRIMENTALES. POUR CHAQUE TAXI, 
L'ESSENCE А EST UTILISÉE LE MARDI 

OU LE MERCREDI À PILE OU FACE. 

SI CE N'AVAIT PAS ÉTÉ LE CAS, 

LES RÉSULTATS AURAIENT PU ÉTRE 
FAUSSÉS PAR DES DIFFÉRENCES ENTRE 
LE MARDI ET LE MERCREDI. 


“ኤ 
መሥ 
⁄ 
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SUPPOSONS MAINTENANT QUE ГОМ VEUILLE ETUDIER LES EFFETS DE DEUX MARQUES 
DE PNEUS ET AUSSI DE DEUX ESSENCES. IL Y A QUATRE TRAITEMENTS POSSIBLES 
QUE NOUS POUVONS PRESENTER DANS UNE TABLE FACTORIELLE 2 x 2. 

LES DEUX FACTEURS ETANT L'ESSENCE ET LE TYPE DE PNEU. 


ESSENCE A ESSENCE B 


ON PEUT ASSIGNER LES QUATRE TRAITEMENTS DE FACON ALEATOIRE SUR QUATRE 
JOURS DIFFERENTS POUR CHAQUE TAXI. LES QUATRE TRAITEMENTS (a, b, c et d) 
SONT REPETES DANS CHAQUE BLOC (TAXI). IL S'AGIT ALORS D'UN DISPOSITIF 
EN BLOCS ALEATOIRES COMPLETS. 


JUSQU'À PRÉSENT, 

NOUS AVONS FAIT 
L'HYPOTHÈSE QUE CHAQUE 
JOUR DE LA SEMAINE EST 
IDENTIQUE. MAIS ON PEUT 
CONTRÔLER CELA AUSSI 
EN UTILISANT SEULEMENT 
QUATRE TAXIS ET EN ASSIGNANT 
UN TRAITEMENT SELON LE PLAN 
DU TABLEAU DE DROITE. 


REMARQUE : 
CHAQUE TRAITEMENT 
APPARAÍT UNE SEULE 

FOIS DANS CHAQUE 
COLONNE! 
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UN TABLEAU 4 x 4 AVEC 4 ÉLÉMENTS 
DIFFÉRENTS, CHACUN APPARAISSANT 
UNE SELLE FOIS DANS CHAQUE LIGNE 

ЕТ COLONNE, S'APPELLE UN Carré 
latin. DANS CETTE EXPERIENCE, 

LES QUATRE JOURS ET LES QUATRE TAXIS 
RECOIVENT LES QUATRE TRAITEMENTS 
EXACTEMENT UNE FOIS CHACUN. 


IMAGINEZ FAIRE 
DES STATS AVEC 
DES CHIFFRES 
ROMAINS | 


L'ETAPE DE RANDOMISATION SELECTIONNE 
UN CARRE LATIN AU HASARD DE LA LISTE 
DE TOUS LES CARRES LATINS POSSIBLES 
A QUATRE ELEMENTS. 


SI QUATRE UNITES NE SONT PAS SUFFISANTES, ON PEUT AUGMENTER LE NOMBRE 
D'UNITES EXPERIMENTALES ЕМ REPETANT LE DISPOSITIF EXPERIMENTAL. 51 ON PART 
DE HUIT TAXIS, ON PEUT LES DIVISER EN DEUX GROUPES DE QUATRE ET REPETER 

LE DISPOSITIF DANS CHAQUE GROUPE. 


OK : TAXI 6 PART 
AVEC L'ESSENCE B 
ET LES PNEUS A 
POUR LE JOUR 2... 


ላ . 
« PFIOUUU! 5 
΄ 
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NOUS AVIONS PROMIS DE МЕ PAS ЕМТКЕК DANS LE DÉTAIL DE L'ANALYSE DE DONNÉES. 
MAIS VOICI EN GROS COMMENT GÉRER UN DISPOSITIF COMPLEXE DE CE TYPE. 


FAR UN STATISTICIEN 
DE 140 kg! 


L'ANALYSE DES DISPOSITIFS EXPÉRIMENTAUX SE FAIT ЕМ ALLOUANT LA VARIABILITÉ 
TOTALE AUX DIFFERENTES SOURCES. DANS L'EXEMPLE DES TAXIS, LES SOURCES 
DE VARIATION SONT LE TAXI, LA MARQUE DE PNEU, LE TYPE D'ESSENCE, LE JOUR 
ET UNE ERREUR ALEATOIRE. L'ANALYSE DE VARIANCE, OU ANOVA EN ABREGE, 
DIVISE LA VARIATION TOTALE EN PORTIONS POUR CHAQUE SOURCE. 


DANS LE PROCHAIN CHAPITRE, ` 
NOUS EXPLIQUERONS EN DÉTAIL 

UN MODËLE POUR ANALYSER 

DES DISPOSITIFS COMPLEXES : à 


LE MODËLE DE RÉGRESSION 
LINÉAIRE. AVEC LA RÉGRESSION 
LINÉAIRE, VOUS POURREZ VOIR 
ANOVA NUMÉRIQUEMENT 
ET DE PRES... 
— 
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Chapitre 11 
Régression linéaire 


JUSQU'À PRÉSENT, NOUS AVONS FAIT DES STATISTIQUES SUR UNE SEULE VARIABLE À LA FOIS, 
QU'ELLE VIENNE D'UNE POPULATION DE PRENEURS DE PILULES OU DE VOITURES ACCIDENTEES. 

DANS CE CHAPITRE, NOUS ALLONS VOIR COMMENT RELIER DEUX VARIABLES. CONNAISSANT 

LES POIDS DES 42 ÉTUDIANTS DU CHAPITRE Z, NOUS NOUS DEMANDONS COMMENT ILS SONT RELIÉS 
À LA TAILLE DE CES ÉTUDIANTS. 


TOUTES LES GRANDES 
QUESTIONS TRAITENT 
DU RELATIONNEL ! 


C'EST UN EXEMPLE D'UNE LARGE CLASSE DE QUESTIONS IMPORTANTES : LA PRESSION ARTÉRIELLE 
PRÉDIT-ELLE LA DURÉE DE VIE ? LES RÉSULTATS DU BAC PRÉDISENT-ILS LES PERFORMANCES 
EN LICENCE ? LIRE UN LIVRE DE STATISTIQUES FAIT-IL DE VOUS UNE MEILLEURE PERSONNE ? 
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ЕМ CLASSE DE MATHÉMATIQUES, 


VOUS AVEZ PROBABLEMENT VU 
DES RELATIONS DÉFINIES COMME 
DES GRAPHIQUES. ЕТАМТ DONNE х, 
ON PEUT ALORS PREDIRE у. 

MAIS EN STATISTIQUES, LES CHOSES 
NE SONT PAS AUSSI SIMPLES ! 


ON SAIT (OU ON SUPPOSE) QUE 

LA TAILLE A UNE INCIDENCE SUR 

LE POIDS — MAIS CE N'EST PAS 

LA SEULE. IL Y A AUSSI D'AUTRES 
FACTEURS COMME LE SEXE, 

ПАСЕ, LE TYPE PHYSIQUE, 

ET UNE COMPOSANTE ALEATOIRE. 


POUR CE CHAPITRE, NOTONS y LA DONNÉE DE POIDS EN LIVRES ET х LA DONNÉE 
DE TAILLE EN POUCES. AINSI (x; , γι) EST LA TAILLE ET LE POIDS DE L'ÉTUDIANT i. 
ON PEUT TRACER LES POINTS (x; , γι) DANS UN PLAN, ON APPELLE CELA 

UN NUAGE DE POINTS. 


250 А 
Н 
| 
I ο 
200 
| 9600 8 
: goo 
8 ፍዕ 8 
i o 
MEL РЕ LEE Le 
8 0 ο ο Ὁ 8 
са? е5: 8 
ο 9 | 
8 8 ! 
[00 а“ i 
| 
i 
i 
50 i 
60 65 70 75 
TAILLE 


(CERTAINS POINTS SONT PLUS GROS CAR ILS REPRÉSENTENT DEUX OU TROIS ETUDIANTS 
AYANT LE MÊME POIDS ET LA MEME TAILLE.) 
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POUVONS-NOUS PREVOIR LE POIDS y D'UN ÉTUDIANT CONNAISSANT SA TAILLE % ? 


L'ANALYSE DE RÉGRESSION 


L'ANALYSE DE RÉGRESSION 
CONSISTE À AJUSTER UNE LIGNE 
DROITE À CE NUAGE DÉSORDONNÉ 
DE POINTS. х EST APPELÉE 
VARIABLE INDÉPENDANTE 

OU EXPLICATIVE, ET y EST 

LA VARIABLE ОЕРЕМОАМТЕ 

OU DE RÉPONSE. LA DROITE 

DE REGRESSION AFFINE 

A LA FORME SUIVANTE : 


y=ax+b 


POUR ILLUSTRER LA MÉTHODE D'AJUSTEMENT, UTILISONS UN SOUS-ENSEMBLE UN PEU 
ARRANGÉ DE DONNÉES CONTENANT SEULEMENT NEUF OBSERVATIONS D'ÉTUDIANTS. 


TAILLE ΡΟΙΡΘ 250 


TAILLE 


COMMENT OBTENIR LA DROITE LA MIEUX AJUSTÉE AUX DONNÉES ? 
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L'IDÉE EST DE ММ МЕК L'ÉCART 
TOTAL DES VALEURS y OBSERVÉES 
PAR RAPPORT À LA DROITE. 

COMME AVEC LA VARIANCE, 

ON REGARDE PLUTÔT LA DISTANCE 
AU CARRÉ ENTRE y ET LA DROITE, 
ON LES SOMME POUR OBTENIR 

LA SOMME DES CARRÉS 

DES ERREURS 00 RÉSIDUS. 


SCE = SOMME DE CES CARRÉS 


C'EST UNE MESURE AGRÉGÉE QUI CALCULE DE COMBIEN LA DROITE < PRÉDISANT у,» 
(C'EST-À-DIRE ሃነ) DIFFÈRE DES DONNÉES (C'EST-À-DIRE DES VALEURS OBSERVÉES У). 


ІА RÉGRESSION OU ОКО!ТЕ 
DES MOINDRES CARRÉS 


EST LA DROITE AVEC LA PLUS PETITE SCE. 


EST-CE QU'ON DOIT 
LA MESURER POUR 
CHAQUE DROITE ? 


NOTE HISTORIQUE : POURQUOI APPELLE-T-ON CETTE PROCÉDURE 
L'ANALYSE DE RÉGRESSION ? DANS LES ANNÉES 1880, LE GÉNÉTICIEN 
FRANCIS GALTON (1822-1411) DÉCOUVRIT LE PHÉNOMÈNE DE RÉGRESSION 
VERS LA MOYENNE. EN RECHERCHANT LES RÈGLES DE L'HÉRÉDITÉ, 

IL CONSTATA QUE LA TAILLE DES FILS TENDAIT À RÉGRESSER VERS 


LA TAILLE MOYENNE DE LA POPULATION, PAR RAPPORT À LA TAILLE DES 
PÈRES. LES PÈRES DE GRANDE TAILLE TENDAIENT À AVOIR DES FILS PLUS 
PETITS ET VICE VERSA. GALTON DÉVELOPPA L'ANALYSE DE RÉGRESSION 
POUR ÉTUDIER CE QU'IL APPELA UNE < RÉGRESSION VERS LA MÉDIOCRITÉ >. 
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SANS TOURNER AUTOUR DU РОТ, 
NOUS DONNONS LA FORMULE DE LA DROITE 


DE REGRESSION SANS LA DEMONTRER. 
ON PEUT RENDRE 


C'EST COMPLIQUE MAIS CALCULABLE. MALE HUNTS. 
MAIS IL FAUT ALLER 
y=ax+b DANS UN ESPACE 
DE DIMENSION n 
` POUR CELA... 
OÙ 
ET 


a = y - bx 


OÜ Х ET y SONT LES MOYENNES DE {κι} 
ET Í y,] RESPECTIVEMENT. LES ΘΟΜΜΕΘ 


ΡΑΘΘΟΝΘΙ 
SONT POUR | ALLANT DE 1 À п. 


PARCE QUE NOUS ALLONS RETROUVER CERTAINES EXPRESSIONS, ON VA LES ABRÉGER 
(DE NOUVEAU, LA SOMME SE FAIT POUR TOUT i, SAUF LORSQUE C'EST PRÉCISÉ). 


SOMME DES CARRES DES ECARTS 

À LA MOYENNE POUR х ET ነሩ 

SCT VEUT DIRE SOMME DES CARRÉS 
TOTAUX. 


LE PRODUIT CROISE ET 55, 
DETERMINENT LE COEFFICIENT b. 


TU VOIS, TU PRENDS 
LE VECTEUR Y - Y 
ET TU LE PROJETTES 
SUR LE VECTEUR 
X- X, ET... 


POUR LES DONNÉES ARRANGEES, VOICI LES CALCULS PAS А PAS : 


Xi Yi (x, -х) (y, - y) (x, -ж)? (у, - у)? (x, - x)Cy, -y) 

60 84 -g -56 64 3136 448 

62 45 -6 -45 36 2025 270 

64 140 -ፋ 0 16 0 0 

66 155 -2 15 4 225 -30 

68 па 0 -2] 0 44 0 

70 175 2 85 4 1225 70 

72 145 4 5 16 25 20 

74 197 6 57 36 3244 342 

76 150 8 10 64 100 80 
SOMME 5С,,= 240 sc, = 10426 SC, y^ 1200 

612 1260 


LA DROITE DE REGRESSION SE DETERMINE A PARTIR DES RESUMES STATISTIQUES 
EN BAS DU TABLEAU. 


a=y-bx = 140 -5 x 68 = - 200 
DONC y = - 200 + 5 


NOTEZ 
QUE LA DROITE 
DE RÉGRESSION 
PASSE 
TOUJOURS 
PAR LE POINT 
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АМОУА 


(СОММЕ PROMIS !) EN TERMES 
NOUS NOUS DEMANDONS MAINTENANT : rine 
SI C'EST LA MEILLEURE DROITE, DE QUELLE DE COMBIEN ? 


QUALITÉ EST-ELLE ? 


COMME VOUS POUVEZ L'IMAGINER, LA RÉPONSE A CETTE QUESTION DEPEND DE LA FACON 
DONT LES DONNÉES SONT ÉPARPILLÉES : DE L'IMPORTANCE DE ӘСЕ, LA SOMME 
DES CARRÉS, RELATIVEMENT AUX ÉCARTS TOTAUX DES DONNÉES. QUELQUES EXEMPLES : 


= = = = <.., 


-----------:ϱ 


----- 


MAUVAIS AJUSTEMENT : SCE GRAND 
RELATIVEMENT A UN SCT MODERE. 


BON AJUSTEMENT : SCE FAIBLE 
MEME COMPARE AU PETIT SCT. 


------------:ᾳ 


MAUVAIS AJUSTEMENT : 
ይ SCE GRAND MEME COMPARE 
A UN SCT GRAND. 


BON AJUSTEMENT : SCE 
MODERE, MAIS GRAND SCT. 
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QUANTIFIONS CELA ЕМ SCINDANT е 
ERREURS ¥; 
LA VARIATION EN y. REGARDEZ RDU) i 
LA FIGURE DE DROITE POUR SUIVRE. 
NOUS AVONS : Ў, 
y, m bx, : — REGRESSION 


y cessus መሎ %*ሌኬኳ 85 ΠΗ 
OÜ J, EST LE POIDS ESTIMÉ 
PAR LA DROITE DE REGRESSION. 


ο ten sn hs A N 


Table ANOVA 


SOURCE DE VARIATION SOMMES DES CARRÉS VALEURS POUR LES DONNÉES 


RÉGRESSION «к= У ($, - y* 6000 


ERREURS (RÉSIDUS) SCE = У (y, -#ቻ 


TOTAL SCT = У (y, - y) 10426 


(À PROPOS, CE N'EST PAS EVIDENT QUE SCT = SCR + SCE, MAIS C'EST VRAI!) 
SINON, VOICI LE CALCUL DETAILLE DES SOMMES DE CARRES POUR LA REGRESSION 
ET LES RÉSIDUS POUR NOS DONNÉES AVEC y = - 200 + 5x. 


REGRESSION ERREURS (RÉSIDUS) 
(9, - y) ($, - Ӯ) (y, - 9) (y, 1 
1600 


SCK = 6000 SCE = 4426 
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SCR MESURE LA VARIATION 
TOTALE DUE A LA REGRESSION 
(LES VALEURS PREDITES DE y). 
SCE NOUS L'AVONS DEJA VU. 
NOTEZ QUE 


UNE EXPRESSION 
NUMÉRIQUE POUR 
LE “ DÉBORDEMENT >. 


SCE 
SCT AH, 
TRÈS BIEN! 
= // 
EST LA PROPORTION >. τ. 
DES ERREURS (ου RÉSIDUS) AN 
RELATIVEMENT AUX ÉCARTS 
TOTAUX. 


LE COEFFICIENT DE DÉTERMINATION 


EST LA PROPORTION DE LA SCT IMPUTABLE 
À LA RÉGRESSION : 


2 _ SCR SCE 


r = ест! ест 


SCT 


(CAR SCR = SCT - SCE). г? EST TOUJOURS 
INFERIEUR OU EGAL A 1. PLUS C'EST PROCHE 
DE 1, PLUS LES OBSERVATIONS SONT 
PROCHES DE LA DROITE. r° = 1 INDIQUE 
QUE LES POINTS SONT ALIGNES 

SUR LA DROITE. 


SI ON CALCULE, POUR NOTRE 


PETIT JEU DE DONNEES, CE BURRITO 
ON OBTIENT : " ÉTAIT 
DÉFINITIVEMENT 
6000 UNE ERREUR... 
2 L 
10426 ` 0,sg 


58 % DE LA VARIATION DU POIDS 
S'EXPLIQUE PAR LA TAILLE. 

LES 42 % RESTANTS SONT 

UN TERME D'< ERREUR >. 
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DE FACON ALTERNATIVE, 


LE coefficient de corrélation ገመ 
EST DEFINI COMME LA RACINE | SIGNIFIE QUE κ. 
DE r? MULTIPLIÉE PAR LE SIGNE DE ይ. | EST NEGATIVEMENT 


г = (signe de b) үг? 


CORRELE À y! 


AINSI r EST POSITIF SI LA DROITE 
EST CROISSANTE ET NÉGATIF 
61 CELLE-CI EST DÉCROISSANTE. 


Г MESURE A LA FOIS LA JUSTESSE DE L'AJUSTEMENT ET LE SENS DE LA RELATION 
ENTRE % ET y (EN INDIQUANT SI UN ACCROISSEMENT DE X AUGMENTE OU DIMINUE y). 
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MAINTENANT SOYONS 
HONNETES : PERSONNE 
OU PRESQUE NE 

FAIT CES CALCULS 

A LA MAIN DESORMAIS. 
AVEC UN ORDINATEUR, 
TOUT LE TRAVAIL PEUT 
S'EFFECTUER AVEC 

UNE LIGNE DE CODE. 


EN FAIT, TOUT CE LIVRE 
PEUT ETRE COMPRESSE 
DANS LE CERVEAU 
D'UN STATISTICIEN... 


SI ON UTILISE LE LOGICIEL MINITAB, DÉVELOPPÉ A PENN STATE, 
LA LIGNE DE COMMANDE EST : 


MTB » régression 'poids' avec 1 variable indépendante 'taille' 
ET LES RÉSULTATS SONT : 

L'équation de la régression est 

Poids - -200 + 5.00 * taille 

Prédicteur Coefficient Écarttype t Student Valeur р 


Constante -200,0 110,7 -1,81 0,114 
Taille 5,000 1,623 3,08 0,018 


s= 25.15 В-сатє = 57,5 %  Rr-carré (ajusté) = 51.5 96 


Analyse de Variance 


SOURCE DL SC MC F Valeur p 
Régression 1 6000,0 6000,0 9,49 0,018 
Erreur 7] 44260 632,3 

Total 8 10426,0 


QUEL BONHEUR! 
‹ L'ORDINATEUR 
EST D'ACCORD 
AVEC NOUS! 


MAINTENANT, FAISONS LA MEME CHOSE AVEC LES VRAIES DONNÉES 
DES 42 ETUDIANTS : 


MTB > régression ‘poids’ avec 1 variable indépendante ‘taille’ 


ET LES RESULTATS SONT : 


L'équation de la régression est 


Poids = -205 + 5,09 * taille 


Prédicteur Coefficient Écarttype t Student Valeur p 
Constante -204,74 29,16 7,02 0,000 
Taille 50918 0,4237 12,02 0,000 


s= 14,79 R«arré- 61,6 %  R-carré (ajusté) = 61,2 κ 
Analyse de Variance 


SOURCE DL SC MC Е Valeur p 
Régression 1 31592 31592 144,38 0.000 
Erreur 7 19692 219 

Total 8 51284 


VOICI LE NUAGE DE POINTS 
AVEC LA DROITE ESTIMEE. 

LE COEFFICIENT DE CORRELATION 
POUR NOTRE JEU DE DONNEES 


VAUT 200 


r = +V0,616 = 0,78 


Š 150 4. 
δ 
100 
50 


TAILLE 
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INFERENCE 
STATISTIQUE 


JUSQU'A MAINTENANT, NOUS AVONS 

FAIT DE LANALYSE DE DONNEES, 

EN DETERMINANT LA MEILLEURE RELATION 
LINEAIRE ENTRE LES DONNEES OBSERVEES 
DE x ET y. CHANGEONS MAINTENANT 

DE POINT DE VUE ET CONSIDERONS 

LES 42 ETUDIANTS COMME UN ECHANTILLON 
DE LA POPULATION GLOBALE DES ETUDIANTS. 
QUE POUVONS-NOUS EN DÉDUIRE ? 


QUE T'EST-IL 
ARRIVÉ ? 


UN MODELE DE REGRESSION POUR LA POPULATION GLOBALE 
EST UNE RELATION LINÉAIRE 


Y= а + Bx + £ 


Y EST LA VARIABLE ALÉATOIRE ОЕРЕМОАМТЕ; х EST LA VARIABLE INDÉPENDANTE 
(QUI PEUT ETRE OU NON ALÉATOIRE); α ET В SONT LES PARAMETRES INCONNUS 
À ESTIMER; ЕТ с REPRESENTE LES ERREURS ALÉATOIRES FLUCTUANTES. 


POUR LE MODËLE 

DE POIDS ET DE TAILLE, 
Y EST LE POIDS, 

х EST LA TAILLE, 

a ЕТ ይ SONT INCONNUES. Y 
ON PEUT VOIR £ COMME 
UNE COMPOSANTE 
ALÉATOIRE DES POIDS Y 
POUR CHAQUE VALEUR 

DE TAILLE x. 


| `( 
R DISTRIBUTIONS DE € 
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LA DISTRIBUTION DE £ N'EST ЕМ FAIT PAS LA МЕМЕ POUR DES VALEURS DIFFÉRENTES 

DE x. LES PERSONNES DE 1,50 M VARIENT MOINS EN POIDS QUE CELLES ΡΕ 1,80 rn. 
NEANMOINS, NOUS FAISONS MAINTENANT UNE HYPOTHESE SIMPLIFICATRICE : 

NOUS SUPPOSONS QUE POUR TOUTE VALEUR DE x LES € SONT INDEPENDANTS 

ET NORMAUX, QU'ILS ONT LE MEME ECART-TYPE с = с (=) ET UNE MOYENNE џ = 0. 


REALITE SIMPLIFIEE 


DIABLE! CERTAINS DE CES 
TOUT-PETITS DOIVENT PESER / Z 
PRESQUE RIEN! 


ή, 
፦ 


РАК EXEMPLE, SI LE VRAI MODÈLE DE POIDS 
EST LE SUIVANT : 


Y = - 125 + 4x + = 


OÜ £ SUIT UNE LOI NORMALE AVEC 
u = 0 ET O = 15 LIVRES, ALORS, 
SELON CE MODELE, LES ETUDIANTS 


MESURANT 75 POUCES (1,40 т) 
ONT UNE DISTRIBUTION DE : 


Y= - 125 +4 х 75 + в 
< 175 + с 


AINSI POUR x = 75, Y SUIT UNE LOI 
NORMALE DE MOYENNE 175 LIVRES 
ET D'ÉCART-TYPE 15 LIVRES. 
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MAINTENANT, ÉTANT DONNÉ NOTRE MODÈLE Y = а + Bx + г, NOUS VOULONS, 
COMME NOUS L'AVONS FAIT DANS LES PRECEDENTS CHAPITRES, PRENDRE 
UN ÉCHANTILLON ET L'UTILISER POUR ESTIMER a ET В. 


ON PEUT MONTRER QUE a ET В, 
LES COEFFICIENTS DE LA DROITE 
DES MOINDRES CARRÉS 

y = a + bx SONT BLUE : BEST 
LINEAR UNBIASED ESTIMATORS, 
DONC LES MEILLEURS ESTIMATEURS 
LINÉAIRES NON BIAISES DE α ЕТ В. 


A ES ἐδ ፌሪ Z 


^ 


INCONDITIONNELLE ! 


COMME D'HABITUDE, DES ÉCHANTILLONS DIFFERENTS DONNANT LIEU А DES OBSERVATIONS 
DIFFÉRENTES NE GENERERAIENT PAS LA MEME DROITE DE REGRESSION. CES DROITES 

SONT DISTRIBUEES AUTOUR DE LA DROITE Y = а + Bx + в. NOTRE QUESTION EST : 
COMMENT 8 ET b SONT-ILS DISTRIBUES Αυτουκ DE α ET В RESPECTIVEMENT, ET COMMENT 
CONSTRUIRE DES INTERVALLES DE CONFIANCE ET DES TESTS D'HYPOTHESES ? 


ILS SONT 
BLUE... 
ET JE SUIS VERT... 


HEUREUSEMENT, 
CA NE ME DERANGE 
PAS D'ÉTRE VERT... 
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POUR CHAQUE OBSERVATION (x, γι), 
NOUS AVONS : 


y, = a + bx, + е, 


OÙ e, = y, - Ў, EST L'ÉCART ENTRE y, 
ET LA DROITE DE RÉGRESSION. LES е 
SONT DES VALEURS D'ÉCHANTILLON 
DE £ ET ELLES DONNENT ИМ ESTIMATEUR 
5 POUR а ( в). 


(ON MET n — 2 AU DENOMINATEUR CAR ON UTILISE DEUX DEGRES DE LIBERTE 
POUR LE CALCUL DE а ET P, LAISSANT n — 2 INFORMATIONS INDÉPENDANTES 
POUR ESTIMER σ.) 


BIEN QUE CELA PUISSE PARAÎTRE 
MOINS ÉVIDENT, ON PEUT AUSSI APPRENDS LA GÉOMÉTRIE 
ÉCRIRE 5 COMME CECI : EN DIMENSION n, JE TE DIS, 
C'EST FACILE! 
ЩЕ | $C, - bec, , 
n-2 
CETTE FORMULE NOUS PERMET 


DE CALCULER 5 DIRECTEMENT 
A PARTIR DES STATISTIQUES 
D'ECHANTILLON. 


REPETONS : 5 EST UN ESTIMATEUR DU DEGRE 
D'EPARPILLEMENT DES DONNEES AUTOUR 
DE LA DROITE. 
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INTERVALLES 
DE CONFIANCE 


LES INTERVALLES DE CONFIANCE A 45 % 
POUR α ET В ONT LA FORME FAMILIERE 
(VOIR P. 133) SUIVANTE : 


BE b+ t,0,69(P) 


C'EST DU GÂTEAU 
WATSON! 
OU DE LA ТАКТЕ... 


a€at to oz; (a) 


OÜ ON UTILISE UN t DE STUDENT AVEC n — 2 
DEGRÉS DE LIBERTÉ POUR LA MÉME RAISON 
QUE PRÉCÉDEMMENT. 


LES ERREURS-TYPES, PAR CONTRE, NE SONT PAS COMME D'HABITUDE. 
VOICI LES FORMULES (SANS DEMONSTRATIONS) : 
2 OU CELA POURRAIT ETRE 
5 LE GÂTEAU À ПАМАМОЕ 
s(b) = 4 СОМТЕМАМТ DU CYANURE 


COMME DANS LE < MYSTERE 
DU DENOMINATEUR 


s(a) = s 
QU'EST-IL ARRIVE А NOTRE PRÉCIEUX І / Vn? IL A ÉTÉ REMPLACÉ РАК SC, 


COMME n, 66... AUGMENTE AVEC LE NOMBRE DE DONNÉES, MAIS IL REFLÈTE AUSSI 
LA VARIATION TOTALE DES DONNÉES ΕΝ х. PAR EXEMPLE, SI TOUS LES ÉTUDIANTS 


DE L'ÉCHANTILLON AVAIENT LA MÊME TAILLE, NOUS NE POURRIONS EN TIRER AUCUNE 
CONCLUSION SUR LA DÉPENDANCE DU POIDS PAR RAPPORT À LA TAILLE. DANS CE CAS, 
SCyx = 0, CE QUI IMPLIQUERAIT s( b) = 00 ET DES INTERVALLES DE CONFIANCE 

DE LARGEUR INFINIE. 


Tous 


LES х ÉGAUX 
C'EST 


TROP FORT, 
MÉME POUR 
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PLUS DE QUESTIONS : 


COMMENT PRÉDIRE LA MOYENNE DES 
RÉPONSES Y POUR UNE VALEUR FIXÉE 

DE κ. FAR EXEMPLE, QUEL EST LE POIDS 
MOYEN DES ETUDIANTS DE 76 POUCES ? 
L'INTERVALLE DE CONFIANCE À ds % EST : 


a + Bx, € a + bx, £ t. S(y) 


0,025 


SUPPOSONS QU'UN NOUVEL ETUDIANT DE TAILLE X „y ARRIVE. 
QUELLE PRÉVISION POUVONS-NOUS FAIRE SUR SON POIDS Улу 


L'INTERVALLE DE PRÉDICTION А 45 % 250 
DE Yny POUR L'INDIVIDU DE TAILLE x HU 
EST: 


y € a+ bx „+ tox γην) 


ой 


CES DEUX ERREURS-TYPES CONTIENNENT UN TERME 
CROISSANT ЕМ x (RESPECTIVEMENT EN x, ET x) 
QUAND ON S'ELOIGNE DE LA MOYENNE Х. POURQUOI 
L'ERREUR AUGMENTE-T-ELLE EN S'ELOIGNANT DE % ? 
PARCE QUE COMME LA DROITE PASSE TOUJOURS PAR 
LE POINT (x, y), SI L'ON FAIT PIVOTER CETTE DROITE 
DE REGRESSION ALORS L'IMPACT EST PLUS ÉLEVÉ 
SUR LES VALEURS ELOIGNEES DE LA MOYENNE! 
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REGARDONS CELA AVEC NOS DONNEES ARRANGEES. 
POUR LA MOYENNE DES POIDS POUR UNE TAILLE 

Х = 76 POUCES, NOUS AVONS P = - 200 ET a = 5. 
DONC : 


1 
YE- + = рак Г. 
€ - 200 + 5 X 76 І 2,865 X 25,15 а + 240 


Y € 180 + 2,365 х 255ү 0,3777 


Y € 180 + 36,55 LIVRES 


Y € 81,6 + 16,6 kg 


QUELLE 
ESTIMATION 
POURRIE... 


LA MOYENNE ESTIMEE DU POIDS DES ETUDIANTS 
DE 1,43 т EST DE 81,6 kg, ET NOUS SOMMES 
SÛRS A 45 % QU'ELLE ΝΕ DEVIERA PAS DE PLUS 
DE 16,6 kg. 


SI L'ON PREND UN NOUVEL ÉTUDIANT DE 76 POUCES, NOUS UTILISONS NOS DONNÉES 
ARRANGEES DE NEUF OBSERVATIONS POUR PREDIRE QUE 


| (76-6) 
- 200 + 5 x 76 + 2,365 25,5 Vr 1 Lii, 
Yn, € : ማንው q* 240 


Ypy € 180 + 2,365 x 25, х 1,174 
γην € 180 + 70 LIVRES 
Yny € 8,6 + 3,7 kg 


AU MOINS, 


ON PEUT DIRE 
À L'ENTRAÎNEUR 
DE FOOT QUE 
NOUS SOMMES 
PRESQUE SÛRS 
QUE CE NOUVEL 
ÉTUDIANT PÈSE 
ENTRE 50 

ET 13 kg! 
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LES INTERVALLES NE SONT PAS FAMEUX! QUEL EST LE PROBLEME ? 
EN FAIT, IL Y A DEUX PROBLËMES. 


LA TAILLE SEULE N'EST PAS UN TRES 
BON INDICATEUR DU POIDS. 


NEUF OBSERVATIONS NE SONT PAS 
SUFFISANTES. EN PARTICULIER, IL N'Y AVAIT 
QU'UN SEUL ETUDIANT DE 76 POUCES. 


IL Y A L'EFFET 
ON DU SEXE ET DE 
SA, ቢላ GÉNÉTIQUE... 


Y 


UN AUTRE 
COMME MOI 
PAR LÀ? 


ET N'OUBLIE 
PAS LE 
GUACAMOLE! 


L'ENSEMBLE DES ÉTUDIANTS DE PENN STATE DONNE DE MEILLEURS RÉSULTATS. 


250 
o 
200 LIMITE DE L'INTERVALLE 
DE PRÉDICTION 
EN 
e 150 
ο 
INTERVALLE DE СОМНАМСЕ 
100 ΡΕ ΙΑ ΜΟΥΕΝΝΕ 
50 


60 65 70 75 


TAILLE 
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QUELQU'UN DE COMPLETEMENT 
SCEPTIQUE POURRAIT SUGGERER 
QU'IL N'Y A PAS DE RELATION ENTRE 


A DIRE QUE В = 0. 


Х N'A PAS D'EFFET SUR y. 


NOUS PRENONS CECI COMME 
NOTRE HYPOTHESE NULLE. 


ዚ፡ይ=ዐ 


DANS СЕ CAS, LA STATISTIQUE 
DE TEST EST : 


. ሀ 
© «(ሀ) 


C'EST UN t DE STUDENT 

AVEC n — 2 DEGRES DE LIBERTE. 
COMME D'HABITUDE, LA SIGNIFICATION 
DU TEST DEPEND DE L'HYPOTHESE 
ALTERNATIVE : 


t 


t >t, POUR H, : B > o 
t < t, POUR H, : В <o 


It] > |t, | POUR H, : B+ o 


Tests d'hypothëses 


LA TAILLE ET LE POIDS. CE QUI REVIENT 


NON, 
NON, 
NON! 


POUR LES DONNEES ARRANGEES 


DE POIDS, NOUS SUSPECTONS FORTEMENT 
QUE L'HYPOTHESE ALTERNATIVE DOIT ETRE : 


H,:B > 0 


ON TESTE ALORS : 


= 3,08 


AVEC 7 DEGRES DE LIBERTE, ፌሬ = 846. 
COMME „yg > Ё, s ON REJETTE L'HYPOTHÈSE 
МОШЕ AU SEUIL DE SIGNIFICATION DE 5 %, 
ET ON CONCLUT QU'IL Y A UNE RELATION POSITIVE 


SIGNIFICATIVE ENTRE LA TAILLE ET LE POIDS. 


QUELLE 
SURPRISE! 


ree 
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Régression linéaire 
multiple 


LE MÉME TYPE D'IDÉES BASIQUES PEUT ÉTRE 
UTILISÉ POUR ANALYSER LES RELATIONS ENTRE 
UNE VARIABLE DÉPENDANTE ET PLUSIEURS 
VARIABLES INDEPENDANTES. 


TU NE VOIS PAS? C'EST JUSTE 
UN HYPERPLAN AFFINE DE 
DIMENSION k — 1 DANS UN ESPACE 
DE DIMENSION k! RIEN DE PLUS! 


КААН! 
JE TE 
сков! 


Y= a + Bx, + В, + + Вр + 8 


PAR EXEMPLE, LE POIDS EST DÉTERMINÉ 

PAR UN NOMBRE DE FACTEURS AUTRES QUE 

LA TAILLE COMME L'ÃGE, LE SEXE, LES RÉGIMES, 
LE TYPE PHYSIQUE, ETC. 


M. PIRE Ce 


L'ALGÈBRE MATRICIELLE ET LES ORDINATEURS SE COMBINENT POUR FACILITER L'ANALYSE 
DE CES PROBLEMES. 


PARFOIS LES DONNEES SUIVENT 


ቃያ е 
Regression DE FACON ÉVIDENTE UNE COURBE 
пари NON LINEAIRE. LES STATISTICIENS 

ONT DES TAS D'ASTUCES POUR 

n o n À ] n еа! ке UTILISER DES TECHNIQUES 
DE RÉGRESSIONS LINÉAIRES 

10 5 6 POUR DES PROBLEMES NON 

LINEAIRES. LA PLUS SIMPLE 

EST DE CONSIDÉRER Y COMME 

UN POLYNOME : 


ο 


Y= a+ Bx + В, + в 


ET DE TRAITER κ ET κ COMME 
DES VARIABLES INDÉPENDANTES 
D'UN MODELE LINÉAIRE. 
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Diagnostic des régressions 


AJUSTER UN MODËLE COMPLEXE À DES DONNÉES PEUT PARFOIS OCCULTER 
DES DIFFICULTES OU DES PROBLEMES. ON UTILISE DES PROCEDURES DE DIAGNOSTIC 
DE REGRESSION POUR REVELER TOUTES LES SURPRISES CACHÉES DÉSAGRÉABLES. 


VOUS AVEZ DEJA 
DIAGNOSTIQUÉ UN GRAPHIQUE 
AUPARAVANT, DR SUSSAN ? 


LA MÉTHODE LA PLUS SIMPLE EST DE DESSINER LES ERREURS OU RÉSIDUS е 
EN FONCTION DE LA VARIABLE EXPLICATIVE y,. RAPPELEZ-VOUS QUE L'ERREUR с 
ÉTAIT CENSÉE ÊTRE INDÉPENDANTE DE х. 


UN NUAGE ALÉATOIRE DE POINTS INDIQUE TOUT AUTRE SCHÉMA INDIQUE 
QUE LES HYPOTHÈSES DU MODÈLE SONT UN VÉRITABLE PROBLÈME AVEC 
SUREMENT CORRECTES. LES HYPOTHESES DU MODELE. 


UNE SURPRISE DESAGREABLE 
CLASSIQUE (QUE L'ON 

PRENEZ DEUX 
RETROUVE DANS NOS ec sr ΕΕ 
DONNEES DE TAILLE/POIDS) VOTRE MODELE... 
EST QUE LES ERREURS SOIENT 


HETEROSCEDASTIQUES, 
QUAND LA VARIATION DE е 
CROÎT LORSQUE y AUGMENTE. 
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DANS СЕ CHAPITRE, NOUS AVONS 
RESUME LES IDEES DE BASE 

ET LES TECHNIQUES DE L'ANALYSE 

DE REGRESSION, QUI ETUDIE 

LES RELATIONS STATISTIQUES 

ENTRE DES VARIABLES. AINSI S'ACHÈVE 
NOTRE DISCUSSION DÉTAILLÉE SUR 

LES MÉTHODES STATISTIQUES DE BASE. 
DANS LE DERNIER CHAPITRE, NOUS 
EXAMINERONS BRIÈVEMENT QUELQUES 
AUTRES SUJETS ET PROBLÈMES. 


— ° _ 


OUI, MON OPINION 
PROFESSIONNELLE 
EST QUE VOUS AVEZ 
ASSEZ REGRESSE... 
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Chapitre 12 


CONCLUSION 


LES PRINCIPES DE BASE, LES OUTILS ET LES CALCULS 
ETUDIES DANS CE LIVRE PEUVENT ETRE PLUS LARGEMENT 
UTILISES POUR RESOUDRE DES PROBLEMES PLUS COMPLEXES. 
Voici UN ÉCHANTILLON BIAISE DE MÉTHODES 
STATISTIQUES PLUS AVANCÉES ! 
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ON A VU СОММЕМТ 
AFFICHAGE ss: 
UNE VARIABLE AVEC 
UN GRAPHE DE POINTS 
ΡΕ DONNÉES = 
AVEC UN NUAGE 


DE POINTS. MAIS 
x = INCLINAISON DES SOURCILS Ё = TAILLE DE LA BOUCHE COMMENT REPRESENTER 
y = TAILLE DES YEUX B = HAUTEUR ОП VISAGE GRAPHIQUEMENT PLUS 
Z = TAILLE DU NEZ ETC. DE DEUX VARIABLES 
SUR UNE PAGE PLANE ? 
FARMI LES POSSIBILITÉS, 
UN GUIDE EN BD SE DOIT 
DE MENTIONNER L'IDÉE 
SIMPLE DE HERMAN 
СНЕКМОЕЕ (1а23-) ፡ 
UTILISER UN VISAGE 
HUMAIN OU CHAQUE 
TRAIT CORRESPOND 
A UNE VARIABLE 
POUR CREER UN VISAGE 
DE CHERNOFF. 


Analyse statistique de 


DONNEES MULTIVARIEES 


IL EXISTE DES MODELES MULTIVARIES POUR AIDER A L'ANALYSE ET A L'AFFICHAGE DE DONNEES 
À n DIMENSIONS. VOICI QUELQUES TECHNIQUES MULTIVARIEES : 


L'analyse typologique 
VISE A DIVISER LA POPULATION 

ЕМ SOUS-GROUPES HOMOGENES. 

PAR EXEMPLE, QUAND ON ANALYSE 

LES SCHEMAS DE VOTE DU CONGRES, 
ON PEUT VOIR QUE LES REPRESENTANTS 
DU SUD-EST ET CEUX DU NORD-EST 
FORMENT DEUX GROUPES DISTINCTS. 
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L'analyse discriminante 

EST LE PROCÉDÉ INVERSE. FAR EXEMPLE, LE BUREAU D'ADMISSION EN LICENCE AIMERAIT 
DISPOSER DE DONNÉES QUI LUI INDIQUERAIENT PAR AVANCE SI LE CANDIDAT RÉUSSIRA 
SON DIPLÓME (CONTRIBUANT ALORS AU FONDS DES ΑΝΕΙΕΝΘ) OU S'IL SERA EN ЕСНЕС 
(QUITTANT L'UNIVERSITE POUR UNE RECONVERSION DANS L'HUMANITAIRE). 


NE POURRIONS-NOUS PAS 
TROUVER DES IDEALISTES 
FAISEURS DE FRIC ? 


L'analyse factorielle 
VISE A EXPLIQUER DES DONNEES 

A DIMENSIONS MULTIPLES ET 2,7 AUTORITAIRE. 
AVEC UN PETIT NOMBRE VOILÀ, C'EST VOUS, EN GROS! 
DE VARIABLES. UN PSYCHOLOGUE 


SUR UNE ÉCHELLE DE UN À DIX, 
VOUS ÊTES 7,6 EXTRAVERTIE, 4,5 ALTRUISTE 


PEUT PAR EXEMPLE PROPOSER 
UN TEST DE 100 QUESTIONS 

EN PENSANT QUE LES RÉPONSES 
NE DÉPENDENT QUE DE QUELQUES 
FACTEURS COMME L'EXTRAVERSION, 
L'AUTORITARISME ET L'ALTRUISME. 
ON PEUT ALORS RÉSUMER 

LES RÉSULTATS DU TEST 

À PARTIR DE SCORES COMBINÉS 
DANS CES DIMENSIONS. 
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IL Y A AUSSI PLUS A FAIRE AVEC LES 


PROBABILITES : 


Une marche aléatoire 

ELLE COMMENCE PAR UN LANCER DE PIECE. 
SUPPOSONS QUE VOUS AVANCIEZ SI C'EST FACE 

ET QUE VOUS RECULIEZ 91 C'EST PILE (AVEC DEUX 
PIECES ON PEUT FAIRE CELA SUR DEUX DIMENSIONS). 
CES LANCERS REPETES PRODUISENT UN PROCESSUS 
STOCHASTIQUE APPELE MARCHE ALEATOIRE. 

LES MODELES DE MARCHE ALEATOIRE SONT 

UTILISÉS POUR LES NEGOCIATIONS EN BOURSE 

ET LA GESTION DE PORTEFEUILLE. 


dcm ቻን 


L'analyse de séries temporelles 

ELLE TRAITE D'ENSEMBLES DE DONNÉES, COMME LES MARCHES ALÉATOIRES, QUI VARIENT 
AU COURS DU TEMPS : LES TEMPÉRATURES GLOBALES ET LOCALES, LE PRIX DU PÉTROLE, 
ETC. L'ANALYSE DE SÉRIES TEMPORELLES SE FAIT À L'AIDE DE MODÈLES ALÉATOIRES 

AFIN DE PRÉDIRE LES VALEURS FUTURES. 


HUM... 

J'AI L'IMPRESSION 
QUE JE NE SUIS 
PAS PRÈS DE SORTIR 
DE CETTE PAGE TOUT 
DE SUITE... 
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NOUS AVONS DEJA VU L'AIDE APPORTEE PAR LES ORDINATEURS POUR L'ARITHMÉTIQUE 
ET L'ANALYSE. IL Y A AUSSI DES IDÉES STATISTIQUES DONT L'EXISTENCE MÊME 
PROVIENT DES ORDINATEURS. 


Analyse d’image 

UNE IMAGE D'ORDINATEUR EST CONSTITUEE DE PLUSIEURS MILLIONS DE PIXELS 
(ELEMENTS DE L'IMAGE). UNE IMAGE DONNEE EST DONC UN ENSEMBLE HAUTEMENT 
STRUCTURE DE MILLIONS DE VECTEURS DE PIXELS. L'ANALYSE D'IMAGES TEND À EXTRAIRE 
DU SENS DE CE TYPE D'INFORMATION. 


ON UTILISE DES IMAGES POUR 
COMPRENDRE LES DONNEES, 
MAIS MAINTENANT NOUS DEVONS 
COMPRENDRE LES IMAGES! 


Ré-échantillonnage 

PARFOIS, LES ECARTS-TYPES ET LES BORNES DE CONFIANCE SONT IMPOSSIBLES 
A DETERMINER. ON UTILISE ALORS LE RE-ECHANTILLONNAGE, UNE TECHNIQUE 
QUI SE SERT DE L'ECHANTILLON LUI-MÊME COMME S'IL S'AGISSAIT 

D'UNE POPULATION. LES TECHNIQUES S'APPELLENT RANDOMISATION, 
JACKKNIFE, ET TECHNIQUE DU BOOTSTRAPPING. 


— 


NGH! ÇA A L'AIR 
IMPOSSIBLE, 
MAIS ÇA FONCTIONNE ! 
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Ré-échantillonnage (suite) 


POUR RE-ECHANTILLONNER, L'ORDINATEUR 
« RE-ECHANTILLONNE L'ÉCHANTILLON ; 


* CALCULE LES ESTIMATIONS DE CES NOUVEAUX 
ÉCHANTILLONS ; 


« RÉPÈTE PLUSIEURS FOIS LES DEUX 
PREMIÈRES ÉTAPES, ET ESTIME 

LA VARIANCE DES ESTIMATIONS 

DES ÉCHANTILLONS DE L'ÉCHANTILLON. 


VOUS VOUS SOUVENEZ DU COEFFICIENT DE CORRÉLATION r DES 42 POIDS ET TAILLES 
D'ÉTUDIANTS DU CHAPITRE 11? QUEL EST L'ÉCART-TYPE DE r? L'ORDINATEUR PREND 
200 ÉCHANTILLONS (< BOOTSTRAP» ) DE CES 42 OBSERVATIONS, CALCULE r CHAQUE FOIS 
ET TRACE UN HISTOGRAMME DES r TROUVÉS. 


À PARTIR DE PEU, 
NOUS OBTENONS 
BEAUCOUP COMME 


0,5 0,6 0,7 0,8 0,4 [6 а 
CORRÉLATION DE BOOTSTRAPS 


REMARQUEZ QUE LA VARIANCE DES ESTIMATIONS DES BOOTSTRAPS 
EST RELATIVEMENT FAIBLE. 


ET FINALEMENT, VOICI 
QUELQUES PROBLÈMES 
À GARDER À L'ESPRIT... 


216 


LA QUALITÉ 
DES DONNEES 


VRAISEMBLABLEMENT DES PETITES ERREURS 

DANS L'ÉCHANTILLONNAGE, DANS LES MESURES 

ET L'ENREGISTREMENT DES DONNÉES PEUVENT CAUSER 
DES RAVAGES SUR N'IMPORTE QUELLE ANALYSE. 

R. A. FISHER (1840-1462), GENETICIEN ET FONDATEUR 
DES STATISTIQUES MODERNES, NE SE CONTENTAIT 

PAS DE CONCEVOIR ET D'ANALYSER DES EXPÉRIENCES 
CONCERNANT L'ÉLEVAGE DES ANIMAUX. IL NETTOYAIT AUSSI 
LEURS CAGES ET LES SOIGNAIT CAR IL SAVAIT QUE LA PERTE 
DE L'UN D'ENTRE EUX RISQUAIT D'AFFECTER SES RÉSULTATS. 


AVEC LEURS ORDINATEURS, LEURS BASES DE DONNÉES ET LEURS SUBVENTIONS 
GOUVERNEMENTALES, LES STATISTICIENS MODERNES ONT PERDU L'HABITUDE 
DE METTRE LA MAIN À LA PÂTE. 


HÉ, JE SUIS 
GENTIL AVEC 
MA SOURIS 
MOI AUSSI! 


SI VOUS TRACIEZ LA MASSE 
DE RÉSIDUS DE RATS SOUS 


LES ONGLES DES STATISTICIENS 
AU COURS DU SIÈCLE DERNIER, 
VOUS AURIEZ SÛREMENT 

UN GRAPHIQUE DE CE TYPE : 


ΡΟΙΡΘ (та) 
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Innovation 


LES MEILLEURES SOLUTIONS NE SONT PAS TOUJOURS DANS LES LIVRES | 

PAR EXEMPLE, UNE COMPAGNIE RECRUTÉE POUR ESTIMER LA COMPOSITION 

D'UNE DÉCHARGE PUBLIQUE А ÉTÉ CONFRONTEE A DES PROBLÈMES INTÉRESSANTS 
MAIS QUE VOUS NE TROUVEREZ PAS DANS LES TEXTES STANDARDS... 


COMMENT OBTIENT-ON 
UN ÉCHANTILLON ALÉATOIRE 
SIMPLE DE СА? 


Communication 


LES ANALYSES BRILLANTES SONT INUTILES SI LES RÉSULTATS NE SONT 

PAS CLAIREMENT EXPRIMÉS AVEC DES MOTS SIMPLES, Y COMPRIS SUR LE DEGRÉ 
D'INCERTITUDE DES CONCLUSIONS. PAR EXEMPLE, LES MÉDIAS PARLENT MAINTENANT 
DAVANTAGE DES MARGES D'ERREUR DE LEURS SONDAGES. 


Travail d’équipe 
DANS NOTRE SOCIÉTÉ COMPLEXE, LA RÉSOLUTION DE NOMBREUX PROBLÈMES REQUIERT 
UN TRAVAIL D'ÉQUIPE. LES INGÉNIEURS, LES STATISTICIENS ET LES OUVRIERS À LA CHAÎNE 
COOPÈRENT POUR ACCROÎTRE LA QUALITÉ DE LEURS PRODUITS. LES BIOSTATISTICIENS, 
LES MÉDECINS ET LES MILITANTS ONT TRAVAILLÉ ENSEMBLE POUR CONCEVOIR 

DES ESSAIS CLINIQUES AFIN D'ÉVALUER RAPIDEMENT L'EFFICACITÉ DE MÉDICAMENTS 
DESTINÉS À COMBATTRE LE SIDA. 


218 


EH BIEN VOILA! MAINTENANT, VOUS DEVRIEZ POUVOIR FAIRE А PEU PRES N'IMPORTE QUOI 
AVEC LES STATISTIQUES, EXCEPTE MENTIR, TRICHER, VOLER ET PARIER OU JOUER. 


NOUS GARDONS 
CES SUJETS POUR 
LA BIBLIOGRAPHIE ! 
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AVEZ-VOUS ИМЕ ASSURANCE 
CONVENABLE POUR FAUTE 
PROFESSIONNELLE STATISTIQUE ? 
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CORRIGÉS S'ADRESSANT À UN PUBLIC PLUS SCIENTIFIQUE 
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UN LIVRE FAISANT PARTIE D'UNE COLLECTION RECONNUE 
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DROIT ЕТ SOCIÉTÉ 


GASTWIRTH J. L., STATISTICAL REASONING IN LAW AND POLICY, VOL. 1 
ET 2, SAN DIEGO, ACADEMIC PRESS, 1488. LES DETAILS PRATIQUES 

DE LA LOI INCLUANT LE CAS DE SELECTION DE JURY DÉCRIT AU DEBUT 
DU CHAPITRE 4. 

DANS LE CHAPITRE 4, LE COMMENTAIRE NON JUDICIAIRE SUR LE POKER 
EST TIRE D'UNE AFFAIRE RÉELLE; NOUS ΕΝ AVONS EU LA CONFIRMATION 
PAR LE DR JOHN DE CANI DE L'UNIVERSITÉ DE PENNSYLVANIE. 


LE COMITÉ DE PILOTAGE DU GROUPE DE RECHERCHE ET D'ÉTUDE 
SUR LA SANTÉ DES MÉDECINS, « FINAL REPORT ON THE ASPIRIN 
COMPONENT OF THE ONGOING PHYSICIANS' HEALTH STUDY >, 
THE NEW ENGLAND JOURNAL OF MEDICINE, VOL. 321, Р. 124-135. 
VOUS Y TROUVEREZ DES DETAILS CONCERNANT L'ETUDE 

SUR L'ASPIRINE DECRITE DANS LE CHAPITRE 4. 


DESCRIPTION GRAPHIQUE DES DONNEES 


TUFTE E. R., THE VISUAL DISPLAY OF QUANTITATIVE INFORMATION, 
NEW HAVEN, GRAPHICS PRESS, 2001. LES LIVRES DE TUFTE ONT FIXÉ 
DE NOUVEAUX STANDARDS POUR LA COMMUNICATION DES DONNEES 
QUANTITATIVES. 

CLEVELAND W. 5., THE ELEMENTS OF GRAPHING DATA, SUMMIT 
(N. J.), HOBART PRESS, 1444. LA PLUPART DES IDEES GRAPHIQUES 
DÉCRITES ICI PEUVENT ÊTRE IMPLEMENTEES AVEC DES LOGICIELS 

DE STATISTIQUES COMME К Ой D'AUTRES SYSTÈMES. 


HISTOIRE 


Box J. Е, R A. FISHER : THE LIFE OF A SCIENTIST, NEW YORK, WILEY, 
1478. LA BIOGRAPHIE FAITE PAR LA FILLE DE L'UN DES STATISTICIENS 
LES PLUS INFLUENTS ЕТ CONTROVERSÉS DU xx SIÈCLE (ELLE NEST 
PLUS PUBLIÉE ET EST DEVENUE PLUTÔT RARE ET CHÈRE). 


DAVID Е N., GAMES, GODS AND GAMBLING, MINEOLA (N. Y.), 
DOVER 2012. REIMPRESSION D'UN LIVRE CLASSIQUE SUR L'HISTOIRE 
DES STATISTIQUES. 

SALSBURG D., THE LADY TASTING TEA : HOW STATISTICS 
REVOLUTIONIZED SCIENCE IN THE TWENTIETH CENTURY, 

NEW YORK, HENRY HOLT в CO., 2002. UNE HISTOIRE POPULAIRE 
DES STATISTIQUES MODERNES. 


LOGICIEL DE STATISTIQUES 


DANS СЕ LIVRE, NOUS AVONS UTILISE LE LOGICIEL STATISTIQUE MINITAB (INC. STATE COLLEGE PA). 

LES DONNEES DE POIDS ET DE TAILLES DES ETUDIANTS DE PENN STATE PROVIENNENT DE LA BASE 

DE DONNEES PULSE DE CE SYSTEME. LA VERSION ACTUELLE POUR ETUDIANTS DE MINITAB EST MINITAB 
EXPRESS. LES FICHIERS D'AIDE DE MINITAB SONT CLAIRS ET DÉTAILLÉS, IL S'AGIT PRESQUE ΕΝ 501 D'UN COURS 
BASIQUE DE STATISTIQUES. LES GRAPHIQUES INFORMATIQUES DE CETTE BD ONT ÉTÉ GÉNÉRÉS AVEC S-PLUS. 


R EST UN SYSTÈME SIMILAIRE ET GRATUIT DE STATISTIQUES, 

TRÈS LARGEMENT UTILISÉ POUR DES ANALYSES GRAPHIQUES 

OU NUMÉRIQUES DÉTAILLÉES. R ET S ONT, TOUS LES DEUX, / 
ÉTÉ DÉVELOPPÉS PAR DES STATISTICIENS TRAVAILLANT A AT&T BELL LABS. 


Е EST MAINTENANT SOUTENU PAR LA COMMUNAUTÉ ACADÉMIQUE 
EN SCIENCES INFORMATIQUES ET STATISTIQUES PARTOUT DANS LE MONDE. 
MINITAB EXPRESS ET R FONCTIONNENT TOUS DEUX SOUS PC OU MAC. 


VOS PRÉFÉRENCES INDIVIDUELLES OU VOS GOÛTS VOUS АМЕМЕКОМТ 

А CHOISIR L'UN OU L'AUTRE DE CES LOGICIELS. POUR CERTAINS, RIEN МЕ PEUT 
BATTRE LE < GRATUIT ET SOPHISTIQUÉ> (C'EST R), POUR D'AUTRES, IL FAUT 
DU «SIMPLE, DU CLAIR ET DU TRANSPARENT» (C'EST MINITAB). 


BIEN D'AUTRES LOGICIELS DE STATISTIQUES EXISTENT. LA PLUPART ONT 
MIGRE OU VONT MIGRER VERS UN CALCUL DANS LE < CLOUD», DE FACON 
A ELIMINER LES PROBLEMES TECHNIQUES ET CEUX DE COMPATIBILITE 
POUR LES ETUDIANTS COMME POUR LES ANALYSTES PROFESSIONNELS 
DE DONNEES. 


LES GRANDS SYSTEMES DE BIG DATA DE QUALITE INDUSTRIELLE COMME 
SAS ou JUMP DE SAS INC., SPSS D'IBM, ET STATA SONT LARGEMENT 
UTILISÉS DANS LES ENTREPRISES ET LA RECHERCHE. ON LES TROUVE TOUS 


A DES PRIX REDUITS POUR LES ETUDIANTS. UN ETUDIANT AVISE DEVRAIT 
EN PROFITER POUR APPRENDRE L'UN DE CES SYSTÈMES D'ANALYSE 
DE QUALITÉ INDUSTRIELLE. 


POUR CHAQUE PROGRAMME, IL Y А DE NOMBREUX LIVRES ET MANUELS 
DÉTAILLÉS. UNE BONNE TRENTAINE DE LIVRES OU DE MANUELS 

ЗЕ PRÉTENDENT < ИМЕ INTRODUCTION À ፳». NOTRE LIVRE FAVORI 

DE PROGRAMMATION STATISTIQUE EST THE LITTLE SAS BOOK 

DE L. DELWICHE ET S. SLAUGHTER. ON PEUT Y AJOUTER THE MINITAB 
STUDENT HANDBOOK DE B. RYAN, B. JOINER ET J. CRYER. 


LES PACKS STATISTIQUES SONT DIFFÉRENTS EN CE QUI CONCERNE DES DÉTAILS PARFOIS IMPORTANTS. 

VOUS DEVEZ ÊTRE UN ACHETEUR ÉCLAIRÉ. NOUS VOUS RECOMMANDONS DE CHOISIR UN SYSTÈME 

QUE VOS COLLÈGUES ONT DÉJÀ TESTÉ. PEU D'ENTRE NOUS SONT TAILLÉS POUR ÊTRE DES PIONNIERS 

DES LOGICIELS. PENDANT L'APPRENTISSAGE D'UN LOGICIEL, UTILISEZ DES ENSEMBLES PETITS DE DONNÉES 
FAMILIÈRES. LA PARTIE LA PLUS COÜTEUSE D'UN LOGICIEL EST LE TEMPS QUE VOUS LUI CONSACREREZ. 

LA RÈGLE DE BASE POUR APPRENDRE UN LOGICIEL DE STATISTIQUES EST SIMPLE : LA CONNAISSANCE PRÉCÈDE 
LES RÉSULTATS. À 


CHERCHER À APPRENDRE SIMULTANÉMENT LA THÉORIE STATISTIQUE © 
ET LA PROGRAMMATION STATISTIQUE EST UN PEU COMME ESSAYER 

DE MARCHER EN MÂCHANT UN CHEWING-GUM. DIFFÉRENTES 
APTITUDES ET MÉTHODES DE RÉFLEXION SONT CONCERNÉES 

EN MÊME TEMPS. PRÉVOYEZ DES TEMPS DIFFÉRENTS POUR APPRENDRE 
CHAQUE THÈME. ENSUITE COMBINEZ L'ÉTUDE DES DEUX À LA FOIS. 

DE CETTE FACON, VOUS POURREZ DEVENIR UN MACHEUR, MARCHEUR, 
PROGRAMMEUR STATISTICIEN ! 
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ABSCISSES, AXE DES, 80 
AIRE SOUS LA COURBE, 64-66 
AJUSTEMENT EN ANALYSE DE RÉGRESSION, 184-146 
ANALYSE DE DONNÉES, 4 
ANALYSE DE PUISSANCE, 154-155 
ANALYSE DE RÉGRESSION, 
BLUE EN ANALYSE DE RÉGRESSION, 201-202 
CORRÉLATION AU CARRÉ, 146 
DIAGNOSTIC DE RÉGRESSION, 204 
DONNÉES ARRANGÉES, 184, 142, 144-145, 205-207 
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ET COEFFICIENTS DE CORRELATION, 146 
ET INTERVALLES DE CONFIANCE, 203-206 
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TESTS D'HYPOTHÈSES, 207 
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ANALYSE DISCRIMINANTE, 213 
ANALYSE FACTORIELLE, 213 
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ANALYSE TYPOLOGIQUE, 212 
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TABLE, 144 
APPROXIMATION, 
BINOMIALE, 74-81, 86-88 
CONTINUE, 87-88 
NORMALE, 87-88 
ARRONDI, 4 
ASPIRINE, 
ESSAIS CLINIQUES, 160-167 
VOIR AUSSI COMPARAISON DE DEUX POPULATIONS 
ASTRAGALES, 28 
AXE VERTICAL, ቨ 
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BAYES, JOE, 46-50 
BAYES, THOMAS, 46-50 
BAYES, THÉORÈME DE, 46-50 
VOIR AUSSI FAUX POSITIFS 
BAYÉSIEN, 35 
BERNOULLI, JAMES, 74 
BERNOULLI, SCHEMA DE, 74-75, 78 
ET TAILLE D'ÉCHANTILLON, 48-100 
BLUE, EN ANALYSE DE RÉGRESSION, 201-202 
BIAIS, 
DANS LES ÉCHANTILLONS ALÉATOIRES SIMPLES, 
POUR LES ÉLIMINER, 167 
DANS LES ÉLECTIONS, 126-127 
RÉDUIRE LES BIAIS NATURELS, AVEC COMPARAISONS 
APPARIÉES, 178 
BIAIS NATUREL, RÉDUCTION AVEC COMPARAISON APPARIÉE, 178 
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BLOCS ALEATOIRES COMPLETS, 184-185 
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CALCUL DE PROBABILITÉ ET INTERVALLE DE CONFIANCE, 117-114 
CALCUL DE Z-SCORE, 84-88, 117-118 
CAMÉLÉON AUTOMOBILES, 
COMPARAISON DE MOYENNE DE PETITS ÉCHANTILLONS, 170-171 
INTERVALLE DE CONFIANCE, 134-135 
TEST ОНУРОТНЕВЕ, 144-150 
CARACTÉRISTIQUES 


CARRE LATIN DANS LES METHODES EXPÉRIMENTALES, 185 
CARRES DE LA REGRESSION, SOMME DES CARRES 
DE LA REGRESSION (SCR), 144-146 
CARRES DES ECARTS, 22, 61-62 
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CHERNOFF, HERMAN, 212 
CLAUDE IF, 28 
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COEFFICIENT, 
BINOMIAL, 76 
DE CORRELATION EN ANALYSE DE REGRESSION, 146 
DE REGRESSION, 141-142 
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ЕТ LOI MULTIPLICATIVE, 76 DISTRIBUTION DE PROBABILITE, 


ET TRIANGLE DE PASCAL, 77 BINOMIALE, 77-78 
COMMUNICATION, 218 CARACTERISTIQUE D'UNE, 54 
COMPARAISON, DE VARIABLE ALEATOIRE, 55-58 
DE MOYENNE DE PETITS ECHANTILLONS, 170-171 ET TABLE DE LOIS, 84-85 
DE SALAIRES MOYENS, 168-164 GRAPHIQUE, 56-58 
DE TAUX DE SUCCÈS, 160-163 MOYENNE DE, 60-61 
DE TAUX D'ECHECS, 160-163 DISTRIBUTION NORMALE STANDARD, 74-85 
VOIR AUSSI COMPARAISON DE DEUX POPULATIONS ET TABLE DE LOI, 84-85 
COMPARAISON DE DEUX POPULATIONS, 157-174 RÈGLE DE CALCUL, 85 
DISTRIBUTION D'ÉCHANTILLONNAGE POUR PROPORTION, 163 DISTRIBUTION +, 107-104 
ET INTERVALLE DE CONFIANCE, 164, 164 EN COMPARANT DES MOYENNES DE PETITS 
ET TESTS D'HYPOTHÈSES, 165-167, 164 ÉCHANTILLONS, 171 
MODÈLE DE, 162 ET INTERVALLE DE CONFIANCE, 131-136 
MOYENNE DE, 168-164 ET TESTS D'HYPOTHÈSES, 144-150 
TAUX DE SUCCÈS, 160-163 VALEURS CRITIQUES, 150 
COMPARAISONS APPARIÉES, 174-178 DONNÉES, 
D'ESSENCES, 174-178 APPARIÉES OU NON, 177-178 
ET ECARTS-TYPES, 175-176 ARRANGEES EN ANALYSE DE REGRESSION, 184, 142, 144-195, 
ET TEST t POUR PETITS ECHANTILLONS, 176 205-207 
MOYENNE DES, 175-176 CARACTERISTIQUES DES, 54 
CONFIANCE, INTERVALLE DE, VOIR INTERVALLE DE CONFIANCE ÉCARTS DES, EN ANALYSE DE REGRESSION, 140-145 
CONTROLE LOCAL DANS LES METHODES EXPERIMENTALES, 183 MEDIANE DE, 17 
CONTROLE PAR ECHANTILLONNAGE, 146-148 MILIEU, 17 
CORRECTION DE CONTINUITÉ, 87-88 MOYENNE, 17 
NOMBRE DE, 11-12, 14-15, 
D TRIÉES, 17 
DONNÉES MULTIVARIÉES, 
DES, 28-45 ANALYSE DISCRIMINANTE, 218 
PIPES, 33 ANALYSE FACTORIELLE, 213 
DEGRES DE LIBERTE, 131-135 ANALYSE STATISTIQUE, 212-213 
ET TESTS ሀ! HYPOTHÈSES, 144-150 ANALYSE TYPOLOGIQUE, 212 
POUR COMPARAISON DE MOYENNES DE PETITS DROITE, 
ECHANTILLONS, πι DE REGRESSION AFFINE, 184-142 
DENSITE DE PROBABILITE, 66 DES MOINDRES CARRES, 140 
DE VARIABLE ALEATOIRE CONTINUE, 65 
DENSITES CONTINUES, PROPRIETES DES, 66-67 E 
DIAGRAMME, 
BRANCHE ET FEUILLE, 12, 18 ECARTS MOYENS, CARRES DES, 22 
DE POINTS, 4 ECARTS-TYPES, 
EN BARRE, 11 DANS DES COMPARAISONS APPARIÉES, 175-176 
DISPERSION, DANS LES INTERVALLES DE CONFIANCE, ΠΠ, 128-130 
DE PROBABILITÉS, 67 DE POPULATION, 54, 62, 80 
DES DONNÉES EN ANALYSE DE REGRESSION, 140-142 DE VALEURS MOYENNES, 22, 24-25, 168, 171 
MESURES DE, 14-25 DÉFINIS PAR RACINE CARRÉE, 23 
VARIANCE DE, 22-23 EN COMPARANT DES MOYENNES DE DEUX POPULATIONS, 168 
DISTRIBUTION BINOMIALE, 77, 81, 83, 86, 88 EN COMPARANT DES MOYENNES DE PETITS ÉCHANTILLONS, 
ASYMÉTRIQUE, 82 m 
CALCUL POUR VALEUR ÉLEVÉE, 74-80 ЕТ ECHANTILLONNAGE, 101-103, 107 
ET FONCTION DE DENSITE, 74-80 ET MESURE DE DISPERSION, 23 
ET LOI NORMALE STANDARD, 82 ET Z-SCORES, 24-25 
MOYENNE DE, 78 ÉCHANTILLON ALÉATOIRE SIMPLE, 42-46 
VARIANCE DE, 78 VOIR AUSSI ÉCHANTILLONNAGE ALÉATOIRE 
DISTRIBUTION D'ÉCHANTILLONNAGE, ÉCHANTILLON D'OPPORTUNITE, 47 
DE LA MOYENNE, 104-106 ÉCHANTILLONNAGE, 84-104 
DE PROFORTION DE SUCCES, 163 D'ACCEPTATION, 150 


ЕМ GRAPPES, 45 
ЕТ ECARTS-TYPES, 101-103 
ET EXPERIENCE ALEATOIRE, 48-100, 104-105 
ET INDEPENDANCE, 43-44, 46 
ET VARIABLES ALEATOIRES, 48-100, 104-105 
POUR ACCEPTATION, 150 
POUR ELIMINER LES BIAIS, 167 
STRATIFIÉ, 95 
SYSTÉMATIQUE, 46-47 
VOIR AUSSI MÉTHODES D'ÉCHANTILLONNAGE 
ÉCHANTILLONNAGE ALÉATOIRE, 45 
ET ÉLIMINATION DE BIAIS, 167 
ET INDÉPENDANCE, 42-44, 46 
UTILISÉ POUR DES INTERVALLES DE CONFIANCE, 14-15, 114 
SIMPLE, 42-46, 167 
ERREURS, 
DE TYPE |, 151-154 
DE TYPE ll, 151-154 
FLUCTUATION D'ERREURS ALÉATOIRES, 144-204 
HÉTÉROSCÉDASTIQUES, 204 
MARGE D'ERREUR ET INTERVALLE DE CONFIANCE, 14, 121 
MESURE D'ERREUR ET DISPOSITIF EXPÉRIMENTAL, 183 
SOMME DES CARRÉS DES ERREURS (SCE), 140-145 
ERREURS-TYPES, 
DANS L'ANALYSE DE RÉGRESSION, 203 
DANS LES INTERVALLES DE CONFIANCE, 118, 128-130 
ЕМ COMPARANT DES MOYENNES DE DEUX POPULATIONS, 168 
EN COMPARANT DES MOYENNES DE PETITS 
ÉCHANTILLONS, гл 
ET TAILLE D'ÉCHANTILLON, 48-103 
ESPACE ÉCHANTILLON, 30-31, 33, 41 
ESSENCE, 
COMPARAISONS D’, 172-173 
ET COMPARAISON APPARIÉE, 174-178 
ET DISPOSITIFS EXPÉRIMENTAUX, 182-126 
ESTIMATEURS, 102-103 
BLUE EN ANALYSE DE RÉGRESSION, 201-202 
POUR COMPARER LES MOYENNES DE POPULATIONS, 168-164 
ESTIMATIONS, 102-103, 107 
D'INTERVALLES DE CONFIANCE, 114-127 
ÉTENDUE INTERQUARTILE, 20-21 
ÉVÉNEMENTS, 
MUTUELLEMENT EXCLUSIFS, 34, 42, 44 
PROBABILITÉ D', 35-37 
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